論文の概要: Addressing reward bias in Adversarial Imitation Learning with neutral
reward functions
- arxiv url: http://arxiv.org/abs/2009.09467v1
- Date: Sun, 20 Sep 2020 16:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 12:42:01.202560
- Title: Addressing reward bias in Adversarial Imitation Learning with neutral
reward functions
- Title(参考訳): 中性報酬関数を持つ対人模倣学習における報酬バイアスの対応
- Authors: Rohit Jena, Siddharth Agrawal, Katia Sycara
- Abstract要約: 模倣学習は、アルゴリズムで使用される報酬関数の選択から生じる報酬バイアスの根本的な問題に悩まされる。
複数の端末状態を持つタスクベース環境において、既存の報酬関数が模倣学習シナリオで失敗する理由に関する理論的スケッチを提供する。
本稿では,タスクベース環境において,GAILの既存手法を単一端末状態と複数端末状態で上回り,GAILに対する新たな報酬関数を提案する。
- 参考スコア(独自算出の注目度): 1.7188280334580197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Adversarial Imitation Learning suffers from the fundamental
problem of reward bias stemming from the choice of reward functions used in the
algorithm. Different types of biases also affect different types of
environments - which are broadly divided into survival and task-based
environments. We provide a theoretical sketch of why existing reward functions
would fail in imitation learning scenarios in task based environments with
multiple terminal states. We also propose a new reward function for GAIL which
outperforms existing GAIL methods on task based environments with single and
multiple terminal states and effectively overcomes both survival and
termination bias.
- Abstract(参考訳): 生成的敵対的模倣学習は、アルゴリズムで使用される報酬関数の選択から生じる報酬バイアスの根本的な問題に悩まされる。
さまざまな種類のバイアスは、さまざまなタイプの環境にも影響します。
複数の端末状態を持つタスクベース環境において、既存の報酬関数が模倣学習シナリオで失敗する理由に関する理論的スケッチを提供する。
また,GAILに対する新たな報酬関数を提案し,既存のGAIL手法を単一および複数端末状態のタスクベース環境において上回り,生存と終了バイアスを効果的に克服する。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - EvIL: Evolution Strategies for Generalisable Imitation Learning [33.745657379141676]
模倣学習(IL)の専門家によるデモンストレーションと、学習したポリシをデプロイしたい環境は、まったく同じではありません。
クローンのようなポリシー中心のアプローチと比較すると、逆強化学習(IRL)のような報酬中心のアプローチは、しばしば新しい環境における専門家の振る舞いをよりよく再現する。
最新のディープILアルゴリズムは、専門家よりもはるかに弱いポリシーを導出する報酬を頻繁に回収する。
本研究では,目標環境における再学習を高速化する報酬形成項を最適化する進化戦略に基づく新しい手法であるEvILを提案する。
論文 参考訳(メタデータ) (2024-06-15T22:46:39Z) - Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning [51.972577689963714]
IL(Single-demonstration mimicion Learning)は、複数の専門家による実演の取得がコストのかかる、あるいは実現不可能な実世界のアプリケーションに対して、実践的なアプローチである。
典型的なIL設定とは対照的に、シングルデモレーションILは1つの専門家軌道のみにアクセスするエージェントを含む。
本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-01T23:06:19Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble [8.857776147129464]
専門家によるデモンストレーションから報酬関数を復元することは、強化学習における根本的な問題である。
本研究では、状態行動と状態のみの報酬関数の両方を学習できる動的非依存型識別器・アンサンブル報酬学習法を提案する。
論文 参考訳(メタデータ) (2022-06-01T05:16:39Z) - Multi-Environment Meta-Learning in Stochastic Linear Bandits [49.387421094105136]
単一環境ではなく混合分布からタスクパラメータを引き出す場合のメタ学習の可能性を検討する。
我々は,新しいタスクが発する環境の知識を必要とせずに,新しいタスクに対する後悔度を低く抑えるOFULアルゴリズムの正規化バージョンを提案する。
論文 参考訳(メタデータ) (2022-05-12T19:31:28Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Reward function shape exploration in adversarial imitation learning: an
empirical study [9.817069267241575]
敵対的模倣学習アルゴリズム(ails)では、戦略を学ぶための環境から真の報酬は得られない。
代表的な報酬関数の形状を設計し,その性能を大規模実験により比較する。
論文 参考訳(メタデータ) (2021-04-14T08:21:49Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Reinforcement Learning with Goal-Distance Gradient [1.370633147306388]
強化学習は通常、エージェントを訓練するために環境のフィードバック報酬を使用する。
現在の手法のほとんどは、スパース報酬や非リワード環境での優れたパフォーマンスを得るのが難しい。
一般環境におけるスパース報酬の問題を解決するために,環境報酬に依存しないモデルフリー手法を提案する。
論文 参考訳(メタデータ) (2020-01-01T02:37:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。