論文の概要: PAGAR: Taming Reward Misalignment in Inverse Reinforcement
Learning-Based Imitation Learning with Protagonist Antagonist Guided
Adversarial Reward
- arxiv url: http://arxiv.org/abs/2306.01731v3
- Date: Wed, 7 Feb 2024 18:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:35:07.750584
- Title: PAGAR: Taming Reward Misalignment in Inverse Reinforcement
Learning-Based Imitation Learning with Protagonist Antagonist Guided
Adversarial Reward
- Title(参考訳): pagar: 逆強化学習における報酬誤用 : 主人公アンタゴニストによる模倣学習
- Authors: Weichao Zhou, Wenchao Li
- Abstract要約: 我々は、PAGAR(Protagonist Antagonist Guided Adrial Reward)と呼ばれる半教師付き報酬設計パラダイムを導入する。
PAGARベースのILは、IRLベースのILのように単一の報酬関数ではなく、混合報酬関数の下でうまく機能するポリシーを訓練する。
提案アルゴリズムは,複雑なタスクにおいて標準のILベースラインよりも優れており,転送設定が困難であることを示す。
- 参考スコア(独自算出の注目度): 8.83374617444803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many imitation learning (IL) algorithms employ inverse reinforcement learning
(IRL) to infer the intrinsic reward function that an expert is implicitly
optimizing for based on their demonstrated behaviors. However, in practice,
IRL-based IL can fail to accomplish the underlying task due to a misalignment
between the inferred reward and the objective of the task. In this paper, we
address the susceptibility of IL to such misalignment by introducing a
semi-supervised reward design paradigm called Protagonist Antagonist Guided
Adversarial Reward (PAGAR). PAGAR-based IL trains a policy to perform well
under mixed reward functions instead of a single reward function as in
IRL-based IL. We identify the theoretical conditions under which PAGAR-based IL
can avoid the task failures caused by reward misalignment. We also present a
practical on-and-off policy approach to implementing PAGAR-based IL.
Experimental results show that our algorithm outperforms standard IL baselines
in complex tasks and challenging transfer settings.
- Abstract(参考訳): 多くの模倣学習 (IL) アルゴリズムは逆強化学習 (IRL) を用いて、専門家がその実演行動に基づいて暗黙的に最適化している本質的な報酬関数を推論する。
しかし、実際には、IRLベースのILは、推論された報酬とタスクの目的とのミスアライメントのために、基礎となるタスクを達成できない。
本稿では,PGA(Protagonist Antagonist Guided Adversarial Reward)と呼ばれる半教師付き報酬設計パラダイムを導入することで,ILのこのような悪用に対する感受性を論じる。
PAGARベースのILは、IRLベースのILのように単一の報酬関数ではなく、混合報酬関数の下でうまく機能するポリシーを訓練する。
我々は,パガーベースilが報酬不一致に起因するタスク障害を回避できる理論的条件を明らかにする。
また,PAGARベースのILの実装に対して,実践的なオン・アンド・オフポリシーアプローチを提案する。
実験結果から,本アルゴリズムは複雑なタスクにおいて標準のILベースラインよりも優れており,転送設定が難しいことがわかった。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment [7.477559660351106]
模倣学習(IL)アルゴリズムは、逆強化学習(IRL)を用いて、実演と整合した報酬関数を推論する。
本稿では,従来のデータアライメントよりもタスクアライメントを優先するIRLベースのILのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T07:08:14Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning [51.972577689963714]
IL(Single-demonstration mimicion Learning)は、複数の専門家による実演の取得がコストのかかる、あるいは実現不可能な実世界のアプリケーションに対して、実践的なアプローチである。
典型的なIL設定とは対照的に、シングルデモレーションILは1つの専門家軌道のみにアクセスするエージェントを含む。
本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-01T23:06:19Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T23:38:47Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。