論文の概要: Deconfounding Imitation Learning with Variational Inference
- arxiv url: http://arxiv.org/abs/2211.02667v2
- Date: Sun, 25 Aug 2024 15:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 01:37:08.526014
- Title: Deconfounding Imitation Learning with Variational Inference
- Title(参考訳): 変分推論による模倣学習の解答
- Authors: Risto Vuorio, Pim de Haan, Johann Brehmer, Hanno Ackermann, Daniel Dijkman, Taco Cohen,
- Abstract要約: 標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
- 参考スコア(独自算出の注目度): 19.99248795957195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard imitation learning can fail when the expert demonstrators have different sensory inputs than the imitating agent. This is because partial observability gives rise to hidden confounders in the causal graph. In previous work, to work around the confounding problem, policies have been trained using query access to the expert's policy or inverse reinforcement learning (IRL). However, both approaches have drawbacks as the expert's policy may not be available and IRL can be unstable in practice. Instead, we propose to train a variational inference model to infer the expert's latent information and use it to train a latent-conditional policy. We prove that using this method, under strong assumptions, the identification of the correct imitation learning policy is theoretically possible from expert demonstrations alone. In practice, we focus on a setting with less strong assumptions where we use exploration data for learning the inference model. We show in theory and practice that this algorithm converges to the correct interventional policy, solves the confounding issue, and can under certain assumptions achieve an asymptotically optimal imitation performance.
- Abstract(参考訳): 標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
これまでの研究では, 問題点に対処するために, 専門家のポリシーや逆強化学習(IRL)へのクエリアクセスを用いてポリシーを訓練してきた。
しかし、専門家のポリシーが利用できない可能性があり、IRLは実際には不安定であるため、どちらのアプローチにも欠点がある。
代わりに、専門家の潜伏情報を推測するために変分推論モデルを訓練し、潜伏条件ポリシーの訓練に使用することを提案する。
本研究では,この手法を強い仮定のもとに,専門家のデモンストレーションだけで理論上は正しい模倣学習ポリシーの同定が可能であることを証明した。
実際には、推論モデルを学習するために探索データを使用するという、強い仮定の少ない設定に重点を置いています。
理論と実践において、このアルゴリズムは正しい介入ポリシーに収束し、相反する問題を解き、特定の仮定の下で漸近的に最適な模倣性能が得られることを示す。
関連論文リスト
- Sequential Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
猿が猿を見なさい」とは、制度の根底にある仕組みを深く理解せずに「生」の模倣を指して、昔ながらの格言である。
本稿では、エピソード毎に複数の意思決定をしなければならないシーケンシャルセッティングにおける因果模倣学習の問題について検討する。
論文 参考訳(メタデータ) (2022-08-12T13:53:23Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - A Low Rank Promoting Prior for Unsupervised Contrastive Learning [108.91406719395417]
提案手法は,従来の低階の促進をコントラスト学習の枠組みに効果的に組み込む新しい確率的グラフィカルモデルを構築する。
我々の仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さな次元の同じ部分空間上にあることを明示的に要求する。
実証的な証拠は、提案アルゴリズムが複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。
論文 参考訳(メタデータ) (2021-08-05T15:58:25Z) - Provable Hierarchical Imitation Learning via EM [2.864550757598007]
専門家による実証から選択肢型階層政策を学習することを検討する。
Danielらによって提案されたEMアプローチを特徴付ける。
提案アルゴリズムは実パラメータの周囲のノルム球に高い確率で収束することを示す。
論文 参考訳(メタデータ) (2020-10-07T03:21:57Z) - Non-Adversarial Imitation Learning and its Connections to Adversarial
Methods [21.89749623434729]
非対人模倣学習のための枠組みを提案する。
結果のアルゴリズムは敵のアルゴリズムと似ている。
また, 新たなアルゴリズムを導出するために, 我々の非敵対的定式化が有効であることを示す。
論文 参考訳(メタデータ) (2020-08-08T13:43:06Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。