論文の概要: Energy-Based Imitation Learning
- arxiv url: http://arxiv.org/abs/2004.09395v4
- Date: Thu, 15 Apr 2021 04:30:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 17:54:44.827728
- Title: Energy-Based Imitation Learning
- Title(参考訳): エネルギーに基づく模倣学習
- Authors: Minghuan Liu, Tairan He, Minkai Xu, Weinan Zhang
- Abstract要約: 我々は、エージェントが専門家によるデモンストレーションから最適なポリシーを回復しようとする模倣学習(IL)の一般的なシナリオに取り組む。
本稿では,エネルギーベースモデル(EBM)の最近の進歩に触発されて,エネルギーベース・イミテーション・ラーニング(EBIL)というシンプルなILフレームワークを提案する。
EBIL は EBM と cccupancy measure matching の両概念を組み合わせており、理論解析により EBIL と Max-Entropy IRL (MaxEnt IRL) のアプローチが同じコインの2つの側面であることを明らかにする。
- 参考スコア(独自算出の注目度): 29.55675131809474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle a common scenario in imitation learning (IL), where agents try to
recover the optimal policy from expert demonstrations without further access to
the expert or environment reward signals. Except the simple Behavior Cloning
(BC) that adopts supervised learning followed by the problem of compounding
error, previous solutions like inverse reinforcement learning (IRL) and recent
generative adversarial methods involve a bi-level or alternating optimization
for updating the reward function and the policy, suffering from high
computational cost and training instability. Inspired by recent progress in
energy-based model (EBM), in this paper, we propose a simplified IL framework
named Energy-Based Imitation Learning (EBIL). Instead of updating the reward
and policy iteratively, EBIL breaks out of the traditional IRL paradigm by a
simple and flexible two-stage solution: first estimating the expert energy as
the surrogate reward function through score matching, then utilizing such a
reward for learning the policy by reinforcement learning algorithms. EBIL
combines the idea of both EBM and occupancy measure matching, and via theoretic
analysis we reveal that EBIL and Max-Entropy IRL (MaxEnt IRL) approaches are
two sides of the same coin, and thus EBIL could be an alternative of
adversarial IRL methods. Extensive experiments on qualitative and quantitative
evaluations indicate that EBIL is able to recover meaningful and interpretative
reward signals while achieving effective and comparable performance against
existing algorithms on IL benchmarks.
- Abstract(参考訳): 我々は、エージェントが専門家や環境報酬信号にこれ以上アクセスすることなく、専門家のデモンストレーションから最適なポリシーを回復しようとする模倣学習(IL)の一般的なシナリオに取り組む。
教師付き学習を採用した単純な行動クローン(BC)を例外として、逆強化学習(IRL)のような従来の手法や、最近の生成的逆行法は、高い計算コストと訓練不安定性に苦しむ報酬関数とポリシーを更新するための二段階または交互に最適化する。
本稿では,エネルギーベースモデル(EBM)の最近の進歩に触発されて,エネルギーベース模倣学習(EBIL)と呼ばれる簡易なILフレームワークを提案する。
EBILは報酬とポリシーを反復的に更新する代わりに、単純で柔軟な2段階のソリューションによって従来のIRLパラダイムを破る。
EBIL は EBM と cccupancy measure matching の両概念を組み合わせており、理論解析により、EBIL と Max-Entropy IRL (MaxEnt IRL) のアプローチが同じコインの2つの側面であり、したがって EBIL は逆IRL法に代わるものとなる。
定性的および定量的評価に関する大規模な実験は、EBILが有意義で解釈的な報酬信号を回復し、ILベンチマーク上の既存のアルゴリズムに対して効果的かつ同等のパフォーマンスを達成できることを示唆している。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - EvIL: Evolution Strategies for Generalisable Imitation Learning [33.745657379141676]
模倣学習(IL)の専門家によるデモンストレーションと、学習したポリシをデプロイしたい環境は、まったく同じではありません。
クローンのようなポリシー中心のアプローチと比較すると、逆強化学習(IRL)のような報酬中心のアプローチは、しばしば新しい環境における専門家の振る舞いをよりよく再現する。
最新のディープILアルゴリズムは、専門家よりもはるかに弱いポリシーを導出する報酬を頻繁に回収する。
本研究では,目標環境における再学習を高速化する報酬形成項を最適化する進化戦略に基づく新しい手法であるEvILを提案する。
論文 参考訳(メタデータ) (2024-06-15T22:46:39Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。