論文の概要: Sequential Causal Imitation Learning with Unobserved Confounders
- arxiv url: http://arxiv.org/abs/2208.06276v1
- Date: Fri, 12 Aug 2022 13:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:01:09.127526
- Title: Sequential Causal Imitation Learning with Unobserved Confounders
- Title(参考訳): 非観血的共同設立者によるシークエンシャル因果模倣学習
- Authors: Daniel Kumor, Junzhe Zhang, Elias Bareinboim
- Abstract要約: 猿が猿を見なさい」とは、制度の根底にある仕組みを深く理解せずに「生」の模倣を指して、昔ながらの格言である。
本稿では、エピソード毎に複数の意思決定をしなければならないシーケンシャルセッティングにおける因果模倣学習の問題について検討する。
- 参考スコア(独自算出の注目度): 82.22545916247269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Monkey see monkey do" is an age-old adage, referring to na\"ive imitation
without a deep understanding of a system's underlying mechanics. Indeed, if a
demonstrator has access to information unavailable to the imitator (monkey),
such as a different set of sensors, then no matter how perfectly the imitator
models its perceived environment (See), attempting to reproduce the
demonstrator's behavior (Do) can lead to poor outcomes. Imitation learning in
the presence of a mismatch between demonstrator and imitator has been studied
in the literature under the rubric of causal imitation learning (Zhang et al.,
2020), but existing solutions are limited to single-stage decision-making. This
paper investigates the problem of causal imitation learning in sequential
settings, where the imitator must make multiple decisions per episode. We
develop a graphical criterion that is necessary and sufficient for determining
the feasibility of causal imitation, providing conditions when an imitator can
match a demonstrator's performance despite differing capabilities. Finally, we
provide an efficient algorithm for determining imitability and corroborate our
theory with simulations.
- Abstract(参考訳): 猿が猿を見なさい」とは、制度の根底にある仕組みを深く理解せずに「na\」の模倣を指して、昔ながらの格言である。
実際、もしデモンストレータが、異なるセンサーセットなどの模倣者(モンキー)に使用できない情報にアクセスする場合、どんなに完璧に模倣者が知覚された環境をモデル化しても(参照)、デモストラクタの動作(do)を再現しようとすると、結果が悪くなる可能性がある。
実証者と模倣者のミスマッチの存在下での模倣学習は、因果模倣学習(Zhang et al., 2020)の下、文献で研究されているが、既存の解は単段階決定に限られている。
本稿では、エピソード毎に複数の意思決定をしなければならないシーケンシャルセッティングにおける因果模倣学習の問題について検討する。
因果的模倣の実現可能性を決定するのに必要かつ十分なグラフィカルな基準を開発し、異なる能力にもかかわらず模倣者が実証者のパフォーマンスに合致する条件を提供する。
最後に、イミタビリティを判定し、シミュレーションで理論を裏付ける効率的なアルゴリズムを提案する。
関連論文リスト
- Imitator Learning: Achieve Out-of-the-Box Imitation Ability in Variable
Environments [45.213059639254475]
我々は、模倣学習(ItorL)と呼ばれる新しいトピックを提案する。
これは、非常に限られた専門家のデモンストレーションに基づいて模倣ポリシーを再構築できる模倣モジュールを導出することを目的としている。
自律的な模倣ポリシー構築のために、我々は模倣ポリシーのためのデモベースアテンションアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-10-09T13:35:28Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - A Low Rank Promoting Prior for Unsupervised Contrastive Learning [108.91406719395417]
提案手法は,従来の低階の促進をコントラスト学習の枠組みに効果的に組み込む新しい確率的グラフィカルモデルを構築する。
我々の仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さな次元の同じ部分空間上にあることを明示的に要求する。
実証的な証拠は、提案アルゴリズムが複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。
論文 参考訳(メタデータ) (2021-08-05T15:58:25Z) - Skeletal Feature Compensation for Imitation Learning with Embodiment
Mismatch [51.03498820458658]
SILEMは,学習者や専門家から得られた骨格的特徴の違いを補う模倣学習手法である。
我々は、PyBulletのHalfCheetahとAntに基づいておもちゃのドメインを作成し、SILEMのこの種のエンボディメントミスマッチに対する利点を評価する。
また、より現実的な問題について定性的かつ定量的な結果を提供します。人間のデモンストレーションを観察して歩くために、シミュレーションされたヒューマノイドエージェントを教えます。
論文 参考訳(メタデータ) (2021-04-15T22:50:48Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Feedback in Imitation Learning: Confusion on Causality and Covariate
Shift [12.93527098342393]
我々は,過去の行動に対する条件付けが,学習者の「実行」エラーと性能の劇的な相違につながることを論じる。
我々は、模倣学習アプローチをテストするために使用される既存のベンチマークを分析する。
従来の文献とは驚くほど対照的に,行動的クローン化は優れた結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-02-04T20:18:56Z) - Error Bounds of Imitating Policies and Environments [11.154257789731467]
まず, 2つの模倣法, 行動クローニング法, 生成的敵対的模倣法により, 専門家の政策と模倣された政策の間の価値ギャップを解析する。
その結果, 生成的対向模倣は, 行動クローニングに比べて複合的エラーを低減し, サンプルの複雑さが向上することがわかった。
その結果, モデルに基づく強化学習において, 環境モデルが行動クローニングよりも生成的敵模倣によりより効果的に模倣できることが示唆された。
論文 参考訳(メタデータ) (2020-10-22T17:13:31Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。