論文の概要: Causal Imitation Learning with Unobserved Confounders
- arxiv url: http://arxiv.org/abs/2208.06267v1
- Date: Fri, 12 Aug 2022 13:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:01:28.649999
- Title: Causal Imitation Learning with Unobserved Confounders
- Title(参考訳): 保全されていない共同ファウンダーによる因果模倣学習
- Authors: Junzhe Zhang, Daniel Kumor, Elias Bareinboim
- Abstract要約: 本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
- 参考スコア(独自算出の注目度): 82.22545916247269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the common ways children learn is by mimicking adults. Imitation
learning focuses on learning policies with suitable performance from
demonstrations generated by an expert, with an unspecified performance measure,
and unobserved reward signal. Popular methods for imitation learning start by
either directly mimicking the behavior policy of an expert (behavior cloning)
or by learning a reward function that prioritizes observed expert trajectories
(inverse reinforcement learning). However, these methods rely on the assumption
that covariates used by the expert to determine her/his actions are fully
observed. In this paper, we relax this assumption and study imitation learning
when sensory inputs of the learner and the expert differ. First, we provide a
non-parametric, graphical criterion that is complete (both necessary and
sufficient) for determining the feasibility of imitation from the combinations
of demonstration data and qualitative assumptions about the underlying
environment, represented in the form of a causal model. We then show that when
such a criterion does not hold, imitation could still be feasible by exploiting
quantitative knowledge of the expert trajectories. Finally, we develop an
efficient procedure for learning the imitating policy from experts'
trajectories.
- Abstract(参考訳): 子どもが学ぶ一般的な方法の1つは、大人をまねることである。
模倣学習(imitation learning)は、専門家が生成したデモンストレーションから適切なパフォーマンスで学習するポリシーに焦点を当てている。
模倣学習の一般的な方法は、専門家の行動方針を直接模倣するか、観察された専門家の軌道(逆強化学習)を優先する報酬関数を学習することから始まる。
しかしながら、これらの手法は、専門家が彼女の行動を決定するために使用する共変量は完全に観察されているという仮定に依存している。
本稿では,この仮定を緩和し,学習者と専門家の感覚入力が異なる場合の模倣学習を研究する。
まず、実証データと基礎となる環境に関する定性的な仮定の組み合わせから模倣の実現可能性を決定するために、因果モデルの形で表現された(必要かつ十分な)非パラメトリックなグラフィカルな基準を提供する。
そして,そのような基準が成立しない場合でも,専門家の軌跡の量的知識を活用すれば,模倣も可能となることを示した。
最後に,専門家の軌道から模倣政策を学習するための効率的な手順を開発する。
関連論文リスト
- IDIL: Imitation Learning of Intent-Driven Expert Behavior [2.07180164747172]
我々は、専門家の多様な意図駆動行動を模倣する新しい模倣学習アルゴリズムIDILを紹介する。
シーケンシャルなタスクに高次元の状態表現で対処することができる。
生成モデルを作成すると、IDILはインテント推論の指標において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-25T19:18:30Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - How To Guide Your Learner: Imitation Learning with Active Adaptive
Expert Involvement [20.91491585498749]
本稿では,教師と学生のインタラクションモデルに基づく,新しいアクティブな模倣学習フレームワークを提案する。
本稿では,AdapMenによるエラー境界の改善と,軽度条件下での複合的エラーの回避について述べる。
論文 参考訳(メタデータ) (2023-03-03T16:44:33Z) - Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文 参考訳(メタデータ) (2022-11-04T18:00:02Z) - Evaluating Disentanglement in Generative Models Without Knowledge of
Latent Factors [71.79984112148865]
本稿では,学習中に提示される学習力学に基づいて生成モデルのランキング付けを行う手法を提案する。
本手法は,近年の解離の理論的特徴から着想を得たものであり,その根底にある潜伏因子の監督は不要である。
論文 参考訳(メタデータ) (2022-10-04T17:27:29Z) - Imitating Past Successes can be Very Suboptimal [145.70788608016755]
既存の結果条件付き模倣学習手法が必ずしもポリシーを改善できないことを示す。
簡単な修正が、政策改善を保証する方法をもたらすことを示す。
我々の目的は、全く新しい方法を開発するのではなく、成果条件付き模倣学習の変種が報酬を最大化するためにどのように使用できるかを説明することである。
論文 参考訳(メタデータ) (2022-06-07T15:13:43Z) - Imitation by Predicting Observations [17.86983397979034]
本研究では, 連続制御タスクの課題に対して, 専門家に匹敵する性能を達成できる観測結果のみを模倣する新しい手法を提案する。
提案手法は, 逆RL目標から導出され, 専門家の観察結果の生成モデルを用いて学習した専門家の行動モデルを用いて模倣する。
本稿では,DeepMind Control Suiteベンチマークにおける強力なベースラインIRL法(GAIL)に対して,タスク非関連機能の存在下でGAILよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-07-08T14:09:30Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。