論文の概要: Non-Adversarial Imitation Learning and its Connections to Adversarial
Methods
- arxiv url: http://arxiv.org/abs/2008.03525v1
- Date: Sat, 8 Aug 2020 13:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 11:57:20.371980
- Title: Non-Adversarial Imitation Learning and its Connections to Adversarial
Methods
- Title(参考訳): 非相反的模倣学習とその相反的方法との関連
- Authors: Oleg Arenz and Gerhard Neumann
- Abstract要約: 非対人模倣学習のための枠組みを提案する。
結果のアルゴリズムは敵のアルゴリズムと似ている。
また, 新たなアルゴリズムを導出するために, 我々の非敵対的定式化が有効であることを示す。
- 参考スコア(独自算出の注目度): 21.89749623434729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many modern methods for imitation learning and inverse reinforcement
learning, such as GAIL or AIRL, are based on an adversarial formulation. These
methods apply GANs to match the expert's distribution over states and actions
with the implicit state-action distribution induced by the agent's policy.
However, by framing imitation learning as a saddle point problem, adversarial
methods can suffer from unstable optimization, and convergence can only be
shown for small policy updates. We address these problems by proposing a
framework for non-adversarial imitation learning. The resulting algorithms are
similar to their adversarial counterparts and, thus, provide insights for
adversarial imitation learning methods. Most notably, we show that AIRL is an
instance of our non-adversarial formulation, which enables us to greatly
simplify its derivations and obtain stronger convergence guarantees. We also
show that our non-adversarial formulation can be used to derive novel
algorithms by presenting a method for offline imitation learning that is
inspired by the recent ValueDice algorithm, but does not rely on small policy
updates for convergence. In our simulated robot experiments, our offline method
for non-adversarial imitation learning seems to perform best when using many
updates for policy and discriminator at each iteration and outperforms
behavioral cloning and ValueDice.
- Abstract(参考訳): GAIL や AIRL のような現代の模倣学習や逆強化学習の手法の多くは、対角的定式化に基づいている。
これらの方法は、エージェントのポリシーによって引き起こされる暗黙の状態-行動分布と、状態と行動に対する専門家の分布とを一致させる。
しかし、模倣学習をサドルポイント問題としてフレーミングすることで、敵対的手法は不安定な最適化に苦しむことができ、小さなポリシー更新でのみ収束を示すことができる。
本研究では,非対人模倣学習のための枠組みを提案する。
得られたアルゴリズムは、敵のアルゴリズムと似ているため、敵の模倣学習方法に対する洞察を提供する。
最も注目すべきは、airl が我々の非敵対的定式化の例であることを示し、それによってその導出を劇的に単純化し、より強い収束保証を得ることができる。
また,近年のValueDiceアルゴリズムにインスパイアされたオフラインの模倣学習手法を提示することで,新たなアルゴリズムの導出に利用することができるが,収束のための小さなポリシー更新には依存していないことを示す。
シミュレーションロボット実験では,非敵対的模倣学習のオフライン手法は,反復毎に多数の方針や判別器の更新を行い,行動のクローン化や価値評価よりも優れていた。
関連論文リスト
- Behavioral Refinement via Interpolant-based Policy Diffusion [17.63910869653275]
拡散モデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学習する。
学習対象のポリシーはガウスとは大きく異なり、少数の拡散ステップを使用すると性能が低下する可能性がある。
我々の手法はBRIDGERと呼ばれ、補間フレームワークを利用して任意のポリシーをブリッジし、模倣学習への柔軟なアプローチを可能にする。
論文 参考訳(メタデータ) (2024-02-25T12:19:21Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。