論文の概要: Strictly Batch Imitation Learning by Energy-based Distribution Matching
- arxiv url: http://arxiv.org/abs/2006.14154v2
- Date: Thu, 14 Jan 2021 17:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 02:53:41.996427
- Title: Strictly Batch Imitation Learning by Energy-based Distribution Matching
- Title(参考訳): エネルギー分布マッチングによる厳密なバッチ模倣学習
- Authors: Daniel Jarrett, Ioana Bica, Mihaela van der Schaar
- Abstract要約: すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
- 参考スコア(独自算出の注目度): 104.33286163090179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider learning a policy purely on the basis of demonstrated behavior --
that is, with no access to reinforcement signals, no knowledge of transition
dynamics, and no further interaction with the environment. This *strictly batch
imitation learning* problem arises wherever live experimentation is costly,
such as in healthcare. One solution is simply to retrofit existing algorithms
for apprenticeship learning to work in the offline setting. But such an
approach leans heavily on off-policy evaluation or offline model estimation,
and can be indirect and inefficient. We argue that a good solution should be
able to explicitly parameterize a policy (i.e. respecting action conditionals),
implicitly learn from rollout dynamics (i.e. leveraging state marginals), and
-- crucially -- operate in an entirely offline fashion. To address this
challenge, we propose a novel technique by *energy-based distribution matching*
(EDM): By identifying parameterizations of the (discriminative) model of a
policy with the (generative) energy function for state distributions, EDM
yields a simple but effective solution that equivalently minimizes a divergence
between the occupancy measure for the demonstrator and a model thereof for the
imitator. Through experiments with application to control and healthcare
settings, we illustrate consistent performance gains over existing algorithms
for strictly batch imitation learning.
- Abstract(参考訳): つまり、強化信号へのアクセスがなく、遷移ダイナミクスに関する知識がなく、環境とのさらなる相互作用もない。
この*厳密にバッチ模倣学習*問題は、医療など、ライブ実験がコストがかかる場所で発生する。
1つの解決策は、既存のアルゴリズムをオフライン環境での学習に適合させることだ。
しかし、このようなアプローチは、非政治評価やオフラインモデル推定に大きく依存しており、間接的かつ非効率である可能性がある。
優れたソリューションは、ポリシー(すなわちアクション条件の尊重)を明示的にパラメータ化し、ロールアウトダイナミクス(すなわち状態境界の活用)から暗黙的に学習し、そして(決定的に)完全にオフラインで操作できるべきである、と我々は主張する。
この課題に対処するために、我々は*エネルギーベースの分布マッチング* (EDM): 状態分布の(生成的な)エネルギー関数を持つポリシーの(識別的な)モデルのパラメータ化を同定することにより、EDMは、デモンストレータの占有測度と模倣器のモデルとのばらつきを同等に最小化する、単純で効果的な解を得る。
アプリケーションによる制御と医療設定の実験を通じて、厳密なバッチ模倣学習のための既存のアルゴリズムよりも一貫したパフォーマンス向上を示す。
関連論文リスト
- UNIQ: Offline Inverse Q-learning for Avoiding Undesirable Demonstrations [11.666700714916065]
我々は、望ましくない実演を避ける政策としてオフライン学習の問題に対処する。
学習課題を学習方針と望ましくない政策との統計的距離を最大化するものとして定式化する。
我々のアルゴリズムUNIQは、逆Q-ラーニングフレームワークを構築し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-10-10T18:52:58Z) - Operator World Models for Reinforcement Learning [37.69110422996011]
Policy Mirror Descent (PMD) は、シーケンシャルな意思決定のための強力で理論的に健全な方法論である。
明示的なアクション値関数が利用できないため、強化学習(Reinforcement Learning, RL)には直接適用できない。
本研究では,条件付き平均埋め込みを用いた環境のワールドモデル学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-28T12:05:47Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。