論文の概要: A Primer on Maximum Causal Entropy Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.11409v1
- Date: Tue, 22 Mar 2022 01:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 13:14:15.483757
- Title: A Primer on Maximum Causal Entropy Inverse Reinforcement Learning
- Title(参考訳): 最大因果エントロピー逆強化学習におけるプライマー
- Authors: Adam Gleave, Sam Toyer
- Abstract要約: 逆強化学習(IRL: Inverse Reinforcement Learning)アルゴリズムは、環境の専門家によって提供される実演を説明する報酬関数を推論する。
本チュートリアルでは、MCE IRLの圧縮導出と、MCE IRLアルゴリズムの現代実装による重要な結果について述べる。
- 参考スコア(独自算出の注目度): 5.660207256468973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse Reinforcement Learning (IRL) algorithms infer a reward function that
explains demonstrations provided by an expert acting in the environment.
Maximum Causal Entropy (MCE) IRL is currently the most popular formulation of
IRL, with numerous extensions. In this tutorial, we present a compressed
derivation of MCE IRL and the key results from contemporary implementations of
MCE IRL algorithms. We hope this will serve both as an introductory resource
for those new to the field, and as a concise reference for those already
familiar with these topics.
- Abstract(参考訳): 逆強化学習(IRL: Inverse Reinforcement Learning)アルゴリズムは、環境の専門家によって提供される実演を説明する報酬関数を推論する。
最大因果エントロピー (MCE) IRLは現在、IRLの最も一般的な定式化であり、多くの拡張がある。
本チュートリアルでは、MCE IRLの圧縮導出と、MCE IRLアルゴリズムの現代実装による重要な結果について述べる。
この分野に新規参入した人たちの入門リソースとして、またこれらのトピックに精通した人たちの簡潔な参照としての役割を果たすことを願っています。
関連論文リスト
- Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - BC-IRL: Learning Generalizable Reward Functions from Demonstrations [51.535870379280155]
逆強化学習法は、最大エントロピーIRLアプローチと比較して、より一般化された報酬関数を学習する。
我々は、BC-IRLが、説明的な単純なタスクと2つの連続的なロボット制御タスクでより良く一般化する報酬を学習し、一般化設定に挑戦する際のベースラインの成功率の2倍以上を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T17:57:20Z) - Weighted Maximum Entropy Inverse Reinforcement Learning [22.269565708490468]
逆強化学習(IRL)と模倣学習(IM)について検討する。
エントロピーフレームワークに最大重み関数を追加することで学習プロセスを改善する新しい方法を提案する。
我々のフレームワークとアルゴリズムは、報酬(またはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学ぶことができる。
論文 参考訳(メタデータ) (2022-08-20T06:02:07Z) - Active Exploration for Inverse Reinforcement Learning [58.295273181096036]
Inverse Reinforcement Learning (AceIRL) のための新しいIRLアルゴリズムを提案する。
AceIRLは、専門家の報酬関数を素早く学習し、良い政策を特定するために、未知の環境と専門家のポリシーを積極的に探求する。
我々はシミュレーションにおいてAceIRLを実証的に評価し、より単純な探索戦略よりも著しく優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-18T14:45:55Z) - Reinforced Imitation Learning by Free Energy Principle [2.9327503320877457]
強化学習(Reinforcement Learning, RL)は、特にスパース・リワード・セッティングにおいて、大量の探索を必要とする。
イミテーション・ラーニング(IL)は、専門家によるデモンストレーションから探究なしで学ぶことができる。
自由エネルギー原理(FEP)に基づくRLとILを根本的に統一する
論文 参考訳(メタデータ) (2021-07-25T14:19:29Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Revisiting Maximum Entropy Inverse Reinforcement Learning: New
Perspectives and Algorithms [5.1779694507922835]
与えられた専門家のデモンストレーションと一致した最も非コミット報酬関数を求めるための原理的手法を提案する。
我々のアルゴリズムは、ドライバーの行動予測を含む大規模な実世界のデータセットまでスケールする。
論文 参考訳(メタデータ) (2020-12-01T23:28:31Z) - Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T23:38:47Z) - Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch [60.23815709215807]
本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。
本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-02T14:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。