論文の概要: Regularized Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.03691v2
- Date: Thu, 3 Dec 2020 01:34:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:56:25.730638
- Title: Regularized Inverse Reinforcement Learning
- Title(参考訳): 正規化逆強化学習
- Authors: Wonseok Jeon, Chen-Yang Su, Paul Barde, Thang Doan, Derek
Nowrouzezahrai, Joelle Pineau
- Abstract要約: 逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
- 参考スコア(独自算出の注目度): 49.78352058771138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse Reinforcement Learning (IRL) aims to facilitate a learner's ability
to imitate expert behavior by acquiring reward functions that explain the
expert's decisions. Regularized IRL applies strongly convex regularizers to the
learner's policy in order to avoid the expert's behavior being rationalized by
arbitrary constant rewards, also known as degenerate solutions. We propose
tractable solutions, and practical methods to obtain them, for regularized IRL.
Current methods are restricted to the maximum-entropy IRL framework, limiting
them to Shannon-entropy regularizers, as well as proposing the solutions that
are intractable in practice. We present theoretical backing for our proposed
IRL method's applicability for both discrete and continuous controls,
empirically validating our performance on a variety of tasks.
- Abstract(参考訳): Inverse Reinforcement Learning (IRL) は、専門家の判断を説明する報酬関数を取得することによって、専門家の行動を模倣する学習者の能力を促進することを目的としている。
正規化IRLは、任意の一定の報酬によって合理的化される専門家の振る舞いを避けるために、学習者のポリシーに強い凸正則化器を適用する。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
現在の手法は最大エントロピーirlフレームワークに制限されており、シャノンエントロピー正規化器に制限されている。
本稿では,提案するirl法を離散制御と連続制御の両方に適用し,様々なタスクにおける性能を実証的に検証する理論的支援を行う。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文 参考訳(メタデータ) (2022-11-04T18:00:02Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Versatile Inverse Reinforcement Learning via Cumulative Rewards [22.56145954060092]
逆強化学習は、専門家の行動と意図を符号化することを目的として、専門家のデモンストレーションから報酬関数を推論する。
本稿では,得られた報酬を反復訓練された識別器の和として定式化し,これらの問題を克服する逆強化学習法を提案する。
論文 参考訳(メタデータ) (2021-11-15T10:49:15Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Inverse Reinforcement Learning in the Continuous Setting with Formal
Guarantees [31.122125783516726]
逆強化学習(IRL)は、観察/既知の専門家の行動を記述する報酬関数を見つけることの問題です。
未知の遷移ダイナミクスを持つ連続状態空間設定のための新しいIRLアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-02-16T03:17:23Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。