論文の概要: PAGAR: Taming Reward Misalignment in Inverse Reinforcement
Learning-Based Imitation Learning with Protagonist Antagonist Guided
Adversarial Reward
- arxiv url: http://arxiv.org/abs/2306.01731v3
- Date: Wed, 7 Feb 2024 18:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:35:07.750584
- Title: PAGAR: Taming Reward Misalignment in Inverse Reinforcement
Learning-Based Imitation Learning with Protagonist Antagonist Guided
Adversarial Reward
- Title(参考訳): pagar: 逆強化学習における報酬誤用 : 主人公アンタゴニストによる模倣学習
- Authors: Weichao Zhou, Wenchao Li
- Abstract要約: 我々は、PAGAR(Protagonist Antagonist Guided Adrial Reward)と呼ばれる半教師付き報酬設計パラダイムを導入する。
PAGARベースのILは、IRLベースのILのように単一の報酬関数ではなく、混合報酬関数の下でうまく機能するポリシーを訓練する。
提案アルゴリズムは,複雑なタスクにおいて標準のILベースラインよりも優れており,転送設定が困難であることを示す。
- 参考スコア(独自算出の注目度): 8.83374617444803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many imitation learning (IL) algorithms employ inverse reinforcement learning
(IRL) to infer the intrinsic reward function that an expert is implicitly
optimizing for based on their demonstrated behaviors. However, in practice,
IRL-based IL can fail to accomplish the underlying task due to a misalignment
between the inferred reward and the objective of the task. In this paper, we
address the susceptibility of IL to such misalignment by introducing a
semi-supervised reward design paradigm called Protagonist Antagonist Guided
Adversarial Reward (PAGAR). PAGAR-based IL trains a policy to perform well
under mixed reward functions instead of a single reward function as in
IRL-based IL. We identify the theoretical conditions under which PAGAR-based IL
can avoid the task failures caused by reward misalignment. We also present a
practical on-and-off policy approach to implementing PAGAR-based IL.
Experimental results show that our algorithm outperforms standard IL baselines
in complex tasks and challenging transfer settings.
- Abstract(参考訳): 多くの模倣学習 (IL) アルゴリズムは逆強化学習 (IRL) を用いて、専門家がその実演行動に基づいて暗黙的に最適化している本質的な報酬関数を推論する。
しかし、実際には、IRLベースのILは、推論された報酬とタスクの目的とのミスアライメントのために、基礎となるタスクを達成できない。
本稿では,PGA(Protagonist Antagonist Guided Adversarial Reward)と呼ばれる半教師付き報酬設計パラダイムを導入することで,ILのこのような悪用に対する感受性を論じる。
PAGARベースのILは、IRLベースのILのように単一の報酬関数ではなく、混合報酬関数の下でうまく機能するポリシーを訓練する。
我々は,パガーベースilが報酬不一致に起因するタスク障害を回避できる理論的条件を明らかにする。
また,PAGARベースのILの実装に対して,実践的なオン・アンド・オフポリシーアプローチを提案する。
実験結果から,本アルゴリズムは複雑なタスクにおいて標準のILベースラインよりも優れており,転送設定が難しいことがわかった。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment [7.477559660351106]
模倣学習(IL)アルゴリズムは、逆強化学習(IRL)を用いて、実演と整合した報酬関数を推論する。
本稿では,従来のデータアライメントよりもタスクアライメントを優先するIRLベースのILのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T07:08:14Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning [51.972577689963714]
IL(Single-demonstration mimicion Learning)は、複数の専門家による実演の取得がコストのかかる、あるいは実現不可能な実世界のアプリケーションに対して、実践的なアプローチである。
典型的なIL設定とは対照的に、シングルデモレーションILは1つの専門家軌道のみにアクセスするエージェントを含む。
本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-01T23:06:19Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - STARC: A General Framework For Quantifying Differences Between Reward Functions [52.69620361363209]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T23:38:47Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。