論文の概要: Learning Robust Reward Machines from Noisy Labels
- arxiv url: http://arxiv.org/abs/2408.14871v1
- Date: Tue, 27 Aug 2024 08:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 14:33:22.595383
- Title: Learning Robust Reward Machines from Noisy Labels
- Title(参考訳): 雑音ラベルによるロバストリワードマシンの学習
- Authors: Roko Parac, Lorenzo Nodari, Leo Ardon, Daniel Furelos-Blanco, Federico Cerutti, Alessandra Russo,
- Abstract要約: PROB-IRMは、雑音のある実行トレースから強化学習(RL)エージェントのための堅牢な報酬機(RM)を学習するアプローチである。
ProB-IRMは雑音の痕跡からRMを学習し、それらを利用してRLエージェントを訓練し、そのタスクをうまく解決できることを示す。
- 参考スコア(独自算出の注目度): 46.18428376996514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents PROB-IRM, an approach that learns robust reward machines (RMs) for reinforcement learning (RL) agents from noisy execution traces. The key aspect of RM-driven RL is the exploitation of a finite-state machine that decomposes the agent's task into different subtasks. PROB-IRM uses a state-of-the-art inductive logic programming framework robust to noisy examples to learn RMs from noisy traces using the Bayesian posterior degree of beliefs, thus ensuring robustness against inconsistencies. Pivotal for the results is the interleaving between RM learning and policy learning: a new RM is learned whenever the RL agent generates a trace that is believed not to be accepted by the current RM. To speed up the training of the RL agent, PROB-IRM employs a probabilistic formulation of reward shaping that uses the posterior Bayesian beliefs derived from the traces. Our experimental analysis shows that PROB-IRM can learn (potentially imperfect) RMs from noisy traces and exploit them to train an RL agent to solve its tasks successfully. Despite the complexity of learning the RM from noisy traces, agents trained with PROB-IRM perform comparably to agents provided with handcrafted RMs.
- Abstract(参考訳): 本稿では,強化学習(RL)エージェントの頑健な報酬機(RM)をノイズ発生トレースから学習するPROB-IRMを提案する。
RM駆動RLの重要な側面は、エージェントのタスクを異なるサブタスクに分解する有限状態マシンの利用である。
PROB-IRMは、ノイズの多い例に頑健な最先端の帰納的論理プログラミングフレームワークを使用して、ベイズ的後続の信念を用いて雑音の多いトレースからRMを学習し、不整合に対する堅牢性を確保する。
RLエージェントが現在のRMに受け入れられないトレースを生成すると、新しいRMが学習される。
RL剤のトレーニングを高速化するために、PROB-IRMは、痕跡から派生した後ベイズ的信念を用いた報酬形成の確率論的定式化を採用する。
実験により,PRB-IRMは雑音の痕跡から(潜在的に不完全な)RMを学習し,それらを活用してRLエージェントを訓練し,その課題をうまく解決できることが判明した。
雑音のあるトレースからRMを学習する複雑さにもかかわらず、PRB-IRMで訓練されたエージェントは、手作りのRMを備えたエージェントと互換性がある。
関連論文リスト
- Robot See, Robot Do: Imitation Reward for Noisy Financial Environments [0.0]
本稿では,模倣学習を活用することによって,より新しい,より堅牢な報酬関数を提案する。
モデルフリー強化学習アルゴリズムにおいて,再現性(エキスパートの)フィードバックと強化性(エージェントの)フィードバックを統合する。
実証的な結果は、この新しいアプローチが従来のベンチマークと比較すると、財務パフォーマンスの指標を改善することを示している。
論文 参考訳(メタデータ) (2024-11-13T14:24:47Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Knowledge-Informed Auto-Penetration Testing Based on Reinforcement Learning with Reward Machine [2.087814874079289]
DRLRM-PTと呼ばれる知識情報を用いたAutoPTフレームワークを提案する。
我々は、PTポリシーをトレーニングするためのガイドラインとして、ドメイン知識を符号化するために報酬機(RM)を使用します。
より詳細なドメイン知識を符号化したRMは、単純な知識を持つRMよりもPT性能が良いことを示す。
論文 参考訳(メタデータ) (2024-05-24T20:05:12Z) - Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines [5.600971575680638]
Reward Machines (RMs) を用いた協調型マルチエージェント強化学習(MARL)問題の検討
より複雑なシナリオを扱えるRM(MAHRM)階層のマルチエージェント強化学習を提案する。
3つの協調MARLドメインの実験結果から、MAHRMは、他のMARLメソッドよりも高いレベルの事象の事前知識の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-03-08T06:38:22Z) - The Trickle-down Impact of Reward (In-)consistency on RLHF [71.37987812944971]
報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T04:05:13Z) - From Cloze to Comprehension: Retrofitting Pre-trained Masked Language
Model to Pre-trained Machine Reader [130.45769668885487]
Pre-trained Machine Reader (PMR) は、ラベル付きデータを取得することなく、MLMを事前学習機械読解(MRC)モデルに適合させる新しい手法である。
提案したPMRを構築するために,多量の汎用および高品質なMRCスタイルのトレーニングデータを構築した。
PMRは、MRCの定式化における様々な抽出および分類タスクに対処するための統一モデルとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-12-09T10:21:56Z) - Hierarchies of Reward Machines [75.55324974788475]
リワードマシン(Reward Machine, RM)は、有限状態機械による強化学習タスクの報酬関数を表現するための最近の形式である。
本稿では,RMを他のRMを呼ばせることによって,サブタスク構造をさらに抽象化する形式的手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T12:39:24Z) - Non-Markovian Reward Modelling from Trajectory Labels via Interpretable
Multiple Instance Learning [10.724516317292924]
本稿では、RMをマルチインスタンス学習(MIL)問題として扱う方法について述べる。
ラベル付きトラジェクトリの時間依存性をキャプチャできる新しいMILモデルを開発した。
我々は、新しいMILモデルで報酬関数を高い精度で再構成できる様々なRLタスクを実証する。
論文 参考訳(メタデータ) (2022-05-30T18:20:22Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。