Fugu-MT 論文翻訳(概要): PAGAR: Imitation Learning with Protagonist Antagonist Guided Adversarial Reward

論文の概要: PAGAR: Imitation Learning with Protagonist Antagonist Guided Adversarial Reward

arxiv url: http://arxiv.org/abs/2306.01731v1
Date: Fri, 2 Jun 2023 17:57:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 13:43:55.839401
Title: PAGAR: Imitation Learning with Protagonist Antagonist Guided Adversarial Reward
Title（参考訳）: PAGAR: 敵対的反逆者による模倣学習
Authors: Weichao Zhou, Wenchao Li
Abstract要約: イミテーション学習(IL)アルゴリズムは、しばしば逆強化学習(IRL)に頼り、まず専門家によるデモンストレーションから報酬関数を学習する。本稿では,政策訓練の報酬を設計するための半教師付き学習パラダイムであるPAGAR(Protagonist Antagonist Guided Adversarial Reward)を提案する。提案アルゴリズムは,現状のIL/IRLベースラインに比べて,標準設定でのトレーニング効率を向上する。
参考スコア（独自算出の注目度）: 7.661766773170363
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Imitation learning (IL) algorithms often rely on inverse reinforcement learning (IRL) to first learn a reward function from expert demonstrations. However, IRL can suffer from identifiability issues and there is no performance or efficiency guarantee when training with the learned reward function. In this paper, we propose Protagonist Antagonist Guided Adversarial Reward (PAGAR), a semi-supervised learning paradigm for designing rewards for policy training. PAGAR employs an iterative adversarially search for reward functions to maximize the performance gap between a protagonist policy and an antagonist policy. This allows the protagonist policy to perform well across a set of possible reward functions despite the identifiability issue. When integrated with IRL-based IL, PAGAR guarantees that the trained policy succeeds in the underlying task. Furthermore, we introduce a practical on-and-off policy approach to IL with PAGAR. This approach maximally utilizes samples from both the protagonist and antagonist policies for the optimization of policy and reward functions. Experimental results demonstrate that our algorithm achieves higher training efficiency compared to state-of-the-art IL/IRL baselines in standard settings, as well as zero-shot learning from demonstrations in transfer environments.
Abstract（参考訳）: イミテーション学習(IL)アルゴリズムは、しばしば逆強化学習(IRL)に頼り、まず専門家によるデモンストレーションから報酬関数を学習する。しかし、IRLは識別可能性の問題に悩まされ、学習した報酬関数でトレーニングする際の性能保証や効率保証はない。本稿では,政策訓練の報酬を設計するための半教師付き学習パラダイムであるPAGAR(Protagonist Antagonist Guided Adversarial Reward)を提案する。 PAGARは、報酬関数を反復的に探索して、主人公ポリシーと敵ポリシーの間のパフォーマンスギャップを最大化する。これにより、主人公のポリシーは、識別可能性の問題にもかかわらず、可能な報酬関数のセットでうまく機能することができる。 IRLベースのILと統合されると、PAGARはトレーニングされたポリシーが基礎となるタスクで成功することを保証します。さらに,PAGAR を用いた IL の実践的オン・アンド・オフポリシー手法を導入する。このアプローチは、ポリシーと報酬関数の最適化のために、主人公と敵のポリシーの両方のサンプルを最大限活用する。実験の結果,本アルゴリズムは標準設定のil/irlベースラインよりも高いトレーニング効率を達成し,転送環境における実演によるゼロショット学習を実現した。

関連論文リスト

Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文参考訳（メタデータ） (2024-11-11T14:05:50Z)
Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment [7.477559660351106]
模倣学習(IL)アルゴリズムは、逆強化学習(IRL)を用いて、実演と整合した報酬関数を推論する。本稿では,従来のデータアライメントよりもタスクアライメントを優先するIRLベースのILのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-31T07:08:14Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。 RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning [51.972577689963714]
IL(Single-demonstration mimicion Learning)は、複数の専門家による実演の取得がコストのかかる、あるいは実現不可能な実世界のアプリケーションに対して、実践的なアプローチである。典型的なIL設定とは対照的に、シングルデモレーションILは1つの専門家軌道のみにアクセスするエージェントを含む。本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
論文参考訳（メタデータ） (2024-02-01T23:06:19Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文参考訳（メタデータ） (2023-10-29T13:45:07Z)
STARC: A General Framework For Quantifying Differences Between Reward Functions [52.69620361363209]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文参考訳（メタデータ） (2023-09-26T20:31:19Z)
CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文参考訳（メタデータ） (2023-02-09T17:16:29Z)
Internally Rewarded Reinforcement Learning [22.01249652558878]
政策学習の報奨信号が内部報酬モデルによって生成される強化学習のクラスについて検討する。提案した報奨関数は,報奨音の影響を低減し,トレーニング過程を一定に安定化させることができることを示す。
論文参考訳（メタデータ） (2023-02-01T06:25:46Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文参考訳（メタデータ） (2021-10-22T22:07:51Z)
Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。正規化IRLは学習者のポリシーに強い凸正則化を施す。正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文参考訳（メタデータ） (2020-10-07T23:38:47Z)
Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-03T16:51:40Z)
Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文参考訳（メタデータ） (2019-11-20T03:49:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。