論文の概要: PAGAR: Imitation Learning with Protagonist Antagonist Guided Adversarial
Reward
- arxiv url: http://arxiv.org/abs/2306.01731v1
- Date: Fri, 2 Jun 2023 17:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 13:43:55.839401
- Title: PAGAR: Imitation Learning with Protagonist Antagonist Guided Adversarial
Reward
- Title(参考訳): PAGAR: 敵対的反逆者による模倣学習
- Authors: Weichao Zhou, Wenchao Li
- Abstract要約: イミテーション学習(IL)アルゴリズムは、しばしば逆強化学習(IRL)に頼り、まず専門家によるデモンストレーションから報酬関数を学習する。
本稿では,政策訓練の報酬を設計するための半教師付き学習パラダイムであるPAGAR(Protagonist Antagonist Guided Adversarial Reward)を提案する。
提案アルゴリズムは,現状のIL/IRLベースラインに比べて,標準設定でのトレーニング効率を向上する。
- 参考スコア(独自算出の注目度): 7.661766773170363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning (IL) algorithms often rely on inverse reinforcement
learning (IRL) to first learn a reward function from expert demonstrations.
However, IRL can suffer from identifiability issues and there is no performance
or efficiency guarantee when training with the learned reward function. In this
paper, we propose Protagonist Antagonist Guided Adversarial Reward (PAGAR), a
semi-supervised learning paradigm for designing rewards for policy training.
PAGAR employs an iterative adversarially search for reward functions to
maximize the performance gap between a protagonist policy and an antagonist
policy. This allows the protagonist policy to perform well across a set of
possible reward functions despite the identifiability issue. When integrated
with IRL-based IL, PAGAR guarantees that the trained policy succeeds in the
underlying task. Furthermore, we introduce a practical on-and-off policy
approach to IL with PAGAR. This approach maximally utilizes samples from both
the protagonist and antagonist policies for the optimization of policy and
reward functions. Experimental results demonstrate that our algorithm achieves
higher training efficiency compared to state-of-the-art IL/IRL baselines in
standard settings, as well as zero-shot learning from demonstrations in
transfer environments.
- Abstract(参考訳): イミテーション学習(IL)アルゴリズムは、しばしば逆強化学習(IRL)に頼り、まず専門家によるデモンストレーションから報酬関数を学習する。
しかし、IRLは識別可能性の問題に悩まされ、学習した報酬関数でトレーニングする際の性能保証や効率保証はない。
本稿では,政策訓練の報酬を設計するための半教師付き学習パラダイムであるPAGAR(Protagonist Antagonist Guided Adversarial Reward)を提案する。
PAGARは、報酬関数を反復的に探索して、主人公ポリシーと敵ポリシーの間のパフォーマンスギャップを最大化する。
これにより、主人公のポリシーは、識別可能性の問題にもかかわらず、可能な報酬関数のセットでうまく機能することができる。
IRLベースのILと統合されると、PAGARはトレーニングされたポリシーが基礎となるタスクで成功することを保証します。
さらに,PAGAR を用いた IL の実践的オン・アンド・オフポリシー手法を導入する。
このアプローチは、ポリシーと報酬関数の最適化のために、主人公と敵のポリシーの両方のサンプルを最大限活用する。
実験の結果,本アルゴリズムは標準設定のil/irlベースラインよりも高いトレーニング効率を達成し,転送環境における実演によるゼロショット学習を実現した。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment [7.477559660351106]
模倣学習(IL)アルゴリズムは、逆強化学習(IRL)を用いて、実演と整合した報酬関数を推論する。
本稿では,従来のデータアライメントよりもタスクアライメントを優先するIRLベースのILのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T07:08:14Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning [51.972577689963714]
IL(Single-demonstration mimicion Learning)は、複数の専門家による実演の取得がコストのかかる、あるいは実現不可能な実世界のアプリケーションに対して、実践的なアプローチである。
典型的なIL設定とは対照的に、シングルデモレーションILは1つの専門家軌道のみにアクセスするエージェントを含む。
本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-01T23:06:19Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - STARC: A General Framework For Quantifying Differences Between Reward Functions [52.69620361363209]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T23:38:47Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。