論文の概要: Strictly Batch Imitation Learning by Energy-based Distribution Matching
- arxiv url: http://arxiv.org/abs/2006.14154v2
- Date: Thu, 14 Jan 2021 17:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 02:53:41.996427
- Title: Strictly Batch Imitation Learning by Energy-based Distribution Matching
- Title(参考訳): エネルギー分布マッチングによる厳密なバッチ模倣学習
- Authors: Daniel Jarrett, Ioana Bica, Mihaela van der Schaar
- Abstract要約: すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
- 参考スコア(独自算出の注目度): 104.33286163090179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider learning a policy purely on the basis of demonstrated behavior --
that is, with no access to reinforcement signals, no knowledge of transition
dynamics, and no further interaction with the environment. This *strictly batch
imitation learning* problem arises wherever live experimentation is costly,
such as in healthcare. One solution is simply to retrofit existing algorithms
for apprenticeship learning to work in the offline setting. But such an
approach leans heavily on off-policy evaluation or offline model estimation,
and can be indirect and inefficient. We argue that a good solution should be
able to explicitly parameterize a policy (i.e. respecting action conditionals),
implicitly learn from rollout dynamics (i.e. leveraging state marginals), and
-- crucially -- operate in an entirely offline fashion. To address this
challenge, we propose a novel technique by *energy-based distribution matching*
(EDM): By identifying parameterizations of the (discriminative) model of a
policy with the (generative) energy function for state distributions, EDM
yields a simple but effective solution that equivalently minimizes a divergence
between the occupancy measure for the demonstrator and a model thereof for the
imitator. Through experiments with application to control and healthcare
settings, we illustrate consistent performance gains over existing algorithms
for strictly batch imitation learning.
- Abstract(参考訳): つまり、強化信号へのアクセスがなく、遷移ダイナミクスに関する知識がなく、環境とのさらなる相互作用もない。
この*厳密にバッチ模倣学習*問題は、医療など、ライブ実験がコストがかかる場所で発生する。
1つの解決策は、既存のアルゴリズムをオフライン環境での学習に適合させることだ。
しかし、このようなアプローチは、非政治評価やオフラインモデル推定に大きく依存しており、間接的かつ非効率である可能性がある。
優れたソリューションは、ポリシー(すなわちアクション条件の尊重)を明示的にパラメータ化し、ロールアウトダイナミクス(すなわち状態境界の活用)から暗黙的に学習し、そして(決定的に)完全にオフラインで操作できるべきである、と我々は主張する。
この課題に対処するために、我々は*エネルギーベースの分布マッチング* (EDM): 状態分布の(生成的な)エネルギー関数を持つポリシーの(識別的な)モデルのパラメータ化を同定することにより、EDMは、デモンストレータの占有測度と模倣器のモデルとのばらつきを同等に最小化する、単純で効果的な解を得る。
アプリケーションによる制御と医療設定の実験を通じて、厳密なバッチ模倣学習のための既存のアルゴリズムよりも一貫したパフォーマンス向上を示す。
関連論文リスト
- Learning a Diffusion Model Policy from Rewards via Q-Score Matching [99.7952627335176]
拡散モデルは、行動クローニングとオフライン強化学習においてアクターポリシーを表現するために一般的な選択肢となっている。
それまでの作業では、拡散モデルのスコアベース構造を活用できず、代わりに単純な行動クローニング用語を使用してアクターを訓練した。
本稿では,Q関数のスコアと行動勾配の関連構造を利用した拡散モデルポリシーの学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。