論文の概要: Deconfounded Imitation Learning
- arxiv url: http://arxiv.org/abs/2211.02667v1
- Date: Fri, 4 Nov 2022 18:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:50:34.879277
- Title: Deconfounded Imitation Learning
- Title(参考訳): 模倣学習の廃止
- Authors: Risto Vuorio, Johann Brehmer, Hanno Ackermann, Daniel Dijkman, Taco
Cohen, Pim de Haan
- Abstract要約: 本稿では,仮説モデルと潜在条件ポリシーを併用した推論モデルを学習する,デコンファレントな模倣学習アルゴリズムを提案する。
理論と実践において、このアルゴリズムは正しい介入模倣ポリシーに収束し、特定の仮定の下では、大まかに最適な模倣性能が得られることを示す。
- 参考スコア(独自算出の注目度): 19.0922018199264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard imitation learning can fail when the expert demonstrators have
different sensory inputs than the imitating agent. This is because partial
observability gives rise to hidden confounders in the causal graph. We break
down the space of confounded imitation learning problems and identify three
settings with different data requirements in which the correct imitation policy
can be identified. We then introduce an algorithm for deconfounded imitation
learning, which trains an inference model jointly with a latent-conditional
policy. At test time, the agent alternates between updating its belief over the
latent and acting under the belief. We show in theory and practice that this
algorithm converges to the correct interventional policy, solves the
confounding issue, and can under certain assumptions achieve an asymptotically
optimal imitation performance.
- Abstract(参考訳): 標準的な模倣学習は、専門家のデモ参加者が模倣エージェントと異なる感覚入力を持つ場合に失敗する。
これは、部分的可観測性が因果グラフに隠れた共同設立者を引き起こすためである。
共用模倣学習問題の領域を整理し、正しい模倣ポリシーを識別できるデータ要件の異なる3つの設定を同定する。
次に,仮説モデルと潜在条件ポリシーを併用した推論モデルを学習する擬似学習アルゴリズムを提案する。
テスト時にエージェントは、潜在性に関する信念の更新と、その信念の下で行動することとを交互に行う。
本稿では,このアルゴリズムが正しい介入方針に収束し,解決し,一定の仮定の下で漸近的に最適な模倣性能が得られることを示す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Agnostic Interactive Imitation Learning: New Theory and Practical Algorithms [22.703438243976876]
本研究では、対話型模倣学習について研究し、学習者がアクションアノテーションの実証的な専門家に対話的に問い合わせる。
証明可能な有限サンプル保証を備えた新しいオラクル効率アルゴリズム MFTPL-P を提案する。
論文 参考訳(メタデータ) (2023-12-28T07:05:30Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Sequence Model Imitation Learning with Unobserved Contexts [39.4969161422156]
我々は,専門家が学習者から隠されたエピソードごとのコンテキストにアクセス可能な模倣学習問題を考察する。
政治以外のアプローチは、歴史へのアクセスが与えられた場合、実際には悪化する一方で、政治以外のアプローチでは、歴史を使ってコンテキストを識別できることが示される。
論文 参考訳(メタデータ) (2022-08-03T17:27:44Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Learn to Exceed: Stereo Inverse Reinforcement Learning with Concurrent
Policy Optimization [1.0965065178451106]
マルコフ決定過程において、専門家による実証を模倣し、性能を向上できる制御ポリシーを得るという課題について検討する。
主な関連する1つのアプローチは逆強化学習(IRL)であり、主に専門家によるデモンストレーションから報酬関数を推測することに焦点を当てている。
本稿では,新たな報酬と行動方針学習アプローチを通じて,学習エージェントが実証者より優れる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-21T02:16:21Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。