論文の概要: Addressing reward bias in Adversarial Imitation Learning with neutral
reward functions
- arxiv url: http://arxiv.org/abs/2009.09467v1
- Date: Sun, 20 Sep 2020 16:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 12:42:01.202560
- Title: Addressing reward bias in Adversarial Imitation Learning with neutral
reward functions
- Title(参考訳): 中性報酬関数を持つ対人模倣学習における報酬バイアスの対応
- Authors: Rohit Jena, Siddharth Agrawal, Katia Sycara
- Abstract要約: 模倣学習は、アルゴリズムで使用される報酬関数の選択から生じる報酬バイアスの根本的な問題に悩まされる。
複数の端末状態を持つタスクベース環境において、既存の報酬関数が模倣学習シナリオで失敗する理由に関する理論的スケッチを提供する。
本稿では,タスクベース環境において,GAILの既存手法を単一端末状態と複数端末状態で上回り,GAILに対する新たな報酬関数を提案する。
- 参考スコア(独自算出の注目度): 1.7188280334580197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Adversarial Imitation Learning suffers from the fundamental
problem of reward bias stemming from the choice of reward functions used in the
algorithm. Different types of biases also affect different types of
environments - which are broadly divided into survival and task-based
environments. We provide a theoretical sketch of why existing reward functions
would fail in imitation learning scenarios in task based environments with
multiple terminal states. We also propose a new reward function for GAIL which
outperforms existing GAIL methods on task based environments with single and
multiple terminal states and effectively overcomes both survival and
termination bias.
- Abstract(参考訳): 生成的敵対的模倣学習は、アルゴリズムで使用される報酬関数の選択から生じる報酬バイアスの根本的な問題に悩まされる。
さまざまな種類のバイアスは、さまざまなタイプの環境にも影響します。
複数の端末状態を持つタスクベース環境において、既存の報酬関数が模倣学習シナリオで失敗する理由に関する理論的スケッチを提供する。
また,GAILに対する新たな報酬関数を提案し,既存のGAIL手法を単一および複数端末状態のタスクベース環境において上回り,生存と終了バイアスを効果的に克服する。
関連論文リスト
- A Generalized Acquisition Function for Preference-based Reward Learning [12.158619866176487]
優先度に基づく報酬学習は、ロボットや自律システムに対して、人間がタスクを実行したいと望む方法を教えるための一般的なテクニックである。
従来の研究では、報酬関数パラメータに関する情報獲得を最大化するために、嗜好クエリを積極的に合成することで、データ効率が向上することが示されている。
本研究では, 報酬関数を行動同値クラスまで学習するためには, 行動上の同一ランク付け, 選択上の分布, その他の関連する2つの報酬の類似性の定義などの最適化が可能であることを示す。
論文 参考訳(メタデータ) (2024-03-09T20:32:17Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble [4.36488705757229]
逆強化学習(IRL)は、専門家によるデモンストレーションから基礎となる報酬関数を回復する。
この研究は、伝達可能な報酬関数を学習するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-01T05:16:39Z) - Multi-Environment Meta-Learning in Stochastic Linear Bandits [49.387421094105136]
単一環境ではなく混合分布からタスクパラメータを引き出す場合のメタ学習の可能性を検討する。
我々は,新しいタスクが発する環境の知識を必要とせずに,新しいタスクに対する後悔度を低く抑えるOFULアルゴリズムの正規化バージョンを提案する。
論文 参考訳(メタデータ) (2022-05-12T19:31:28Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Reward function shape exploration in adversarial imitation learning: an
empirical study [9.817069267241575]
敵対的模倣学習アルゴリズム(ails)では、戦略を学ぶための環境から真の報酬は得られない。
代表的な報酬関数の形状を設計し,その性能を大規模実験により比較する。
論文 参考訳(メタデータ) (2021-04-14T08:21:49Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Variational Dynamic for Self-Supervised Exploration in Deep
Reinforcement Learning [64.87110914918101]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Reinforcement Learning with Goal-Distance Gradient [1.370633147306388]
強化学習は通常、エージェントを訓練するために環境のフィードバック報酬を使用する。
現在の手法のほとんどは、スパース報酬や非リワード環境での優れたパフォーマンスを得るのが難しい。
一般環境におけるスパース報酬の問題を解決するために,環境報酬に依存しないモデルフリー手法を提案する。
論文 参考訳(メタデータ) (2020-01-01T02:37:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。