Fugu-MT 論文翻訳(概要): Addressing reward bias in Adversarial Imitation Learning with neutral reward functions

論文の概要: Addressing reward bias in Adversarial Imitation Learning with neutral reward functions

arxiv url: http://arxiv.org/abs/2009.09467v1
Date: Sun, 20 Sep 2020 16:24:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-16 12:42:01.202560
Title: Addressing reward bias in Adversarial Imitation Learning with neutral reward functions
Title（参考訳）: 中性報酬関数を持つ対人模倣学習における報酬バイアスの対応
Authors: Rohit Jena, Siddharth Agrawal, Katia Sycara
Abstract要約: 模倣学習は、アルゴリズムで使用される報酬関数の選択から生じる報酬バイアスの根本的な問題に悩まされる。複数の端末状態を持つタスクベース環境において、既存の報酬関数が模倣学習シナリオで失敗する理由に関する理論的スケッチを提供する。本稿では,タスクベース環境において,GAILの既存手法を単一端末状態と複数端末状態で上回り,GAILに対する新たな報酬関数を提案する。
参考スコア（独自算出の注目度）: 1.7188280334580197
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative Adversarial Imitation Learning suffers from the fundamental problem of reward bias stemming from the choice of reward functions used in the algorithm. Different types of biases also affect different types of environments - which are broadly divided into survival and task-based environments. We provide a theoretical sketch of why existing reward functions would fail in imitation learning scenarios in task based environments with multiple terminal states. We also propose a new reward function for GAIL which outperforms existing GAIL methods on task based environments with single and multiple terminal states and effectively overcomes both survival and termination bias.
Abstract（参考訳）: 生成的敵対的模倣学習は、アルゴリズムで使用される報酬関数の選択から生じる報酬バイアスの根本的な問題に悩まされる。さまざまな種類のバイアスは、さまざまなタイプの環境にも影響します。複数の端末状態を持つタスクベース環境において、既存の報酬関数が模倣学習シナリオで失敗する理由に関する理論的スケッチを提供する。また,GAILに対する新たな報酬関数を提案し,既存のGAIL手法を単一および複数端末状態のタスクベース環境において上回り,生存と終了バイアスを効果的に克服する。

関連論文リスト

No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文参考訳（メタデータ） (2024-08-27T14:31:54Z)
EvIL: Evolution Strategies for Generalisable Imitation Learning [33.745657379141676]
模倣学習(IL)の専門家によるデモンストレーションと、学習したポリシをデプロイしたい環境は、まったく同じではありません。クローンのようなポリシー中心のアプローチと比較すると、逆強化学習(IRL)のような報酬中心のアプローチは、しばしば新しい環境における専門家の振る舞いをよりよく再現する。最新のディープILアルゴリズムは、専門家よりもはるかに弱いポリシーを導出する報酬を頻繁に回収する。本研究では,目標環境における再学習を高速化する報酬形成項を最適化する進化戦略に基づく新しい手法であるEvILを提案する。
論文参考訳（メタデータ） (2024-06-15T22:46:39Z)
Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning [51.972577689963714]
IL(Single-demonstration mimicion Learning)は、複数の専門家による実演の取得がコストのかかる、あるいは実現不可能な実世界のアプリケーションに対して、実践的なアプローチである。典型的なIL設定とは対照的に、シングルデモレーションILは1つの専門家軌道のみにアクセスするエージェントを含む。本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
論文参考訳（メタデータ） (2024-02-01T23:06:19Z)
Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文参考訳（メタデータ） (2023-10-29T13:45:07Z)
Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble [8.857776147129464]
専門家によるデモンストレーションから報酬関数を復元することは、強化学習における根本的な問題である。本研究では、状態行動と状態のみの報酬関数の両方を学習できる動的非依存型識別器・アンサンブル報酬学習法を提案する。
論文参考訳（メタデータ） (2022-06-01T05:16:39Z)
Multi-Environment Meta-Learning in Stochastic Linear Bandits [49.387421094105136]
単一環境ではなく混合分布からタスクパラメータを引き出す場合のメタ学習の可能性を検討する。我々は,新しいタスクが発する環境の知識を必要とせずに,新しいタスクに対する後悔度を低く抑えるOFULアルゴリズムの正規化バージョンを提案する。
論文参考訳（メタデータ） (2022-05-12T19:31:28Z)
Invariance in Policy Optimisation and Partial Identifiability in Reward Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文参考訳（メタデータ） (2022-03-14T20:19:15Z)
Reward function shape exploration in adversarial imitation learning: an empirical study [9.817069267241575]
敵対的模倣学習アルゴリズム(ails)では、戦略を学ぶための環境から真の報酬は得られない。代表的な報酬関数の形状を設計し,その性能を大規模実験により比較する。
論文参考訳（メタデータ） (2021-04-14T08:21:49Z)
Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文参考訳（メタデータ） (2021-03-23T16:19:55Z)
Demonstration-efficient Inverse Reinforcement Learning in Procedurally Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文参考訳（メタデータ） (2020-12-04T11:18:02Z)
Reinforcement Learning with Goal-Distance Gradient [1.370633147306388]
強化学習は通常、エージェントを訓練するために環境のフィードバック報酬を使用する。現在の手法のほとんどは、スパース報酬や非リワード環境での優れたパフォーマンスを得るのが難しい。一般環境におけるスパース報酬の問題を解決するために,環境報酬に依存しないモデルフリー手法を提案する。
論文参考訳（メタデータ） (2020-01-01T02:37:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。