論文の概要: Causal Imitation Learning with Unobserved Confounders
- arxiv url: http://arxiv.org/abs/2208.06267v1
- Date: Fri, 12 Aug 2022 13:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:01:28.649999
- Title: Causal Imitation Learning with Unobserved Confounders
- Title(参考訳): 保全されていない共同ファウンダーによる因果模倣学習
- Authors: Junzhe Zhang, Daniel Kumor, Elias Bareinboim
- Abstract要約: 本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
- 参考スコア(独自算出の注目度): 82.22545916247269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the common ways children learn is by mimicking adults. Imitation
learning focuses on learning policies with suitable performance from
demonstrations generated by an expert, with an unspecified performance measure,
and unobserved reward signal. Popular methods for imitation learning start by
either directly mimicking the behavior policy of an expert (behavior cloning)
or by learning a reward function that prioritizes observed expert trajectories
(inverse reinforcement learning). However, these methods rely on the assumption
that covariates used by the expert to determine her/his actions are fully
observed. In this paper, we relax this assumption and study imitation learning
when sensory inputs of the learner and the expert differ. First, we provide a
non-parametric, graphical criterion that is complete (both necessary and
sufficient) for determining the feasibility of imitation from the combinations
of demonstration data and qualitative assumptions about the underlying
environment, represented in the form of a causal model. We then show that when
such a criterion does not hold, imitation could still be feasible by exploiting
quantitative knowledge of the expert trajectories. Finally, we develop an
efficient procedure for learning the imitating policy from experts'
trajectories.
- Abstract(参考訳): 子どもが学ぶ一般的な方法の1つは、大人をまねることである。
模倣学習(imitation learning)は、専門家が生成したデモンストレーションから適切なパフォーマンスで学習するポリシーに焦点を当てている。
模倣学習の一般的な方法は、専門家の行動方針を直接模倣するか、観察された専門家の軌道(逆強化学習)を優先する報酬関数を学習することから始まる。
しかしながら、これらの手法は、専門家が彼女の行動を決定するために使用する共変量は完全に観察されているという仮定に依存している。
本稿では,この仮定を緩和し,学習者と専門家の感覚入力が異なる場合の模倣学習を研究する。
まず、実証データと基礎となる環境に関する定性的な仮定の組み合わせから模倣の実現可能性を決定するために、因果モデルの形で表現された(必要かつ十分な)非パラメトリックなグラフィカルな基準を提供する。
そして,そのような基準が成立しない場合でも,専門家の軌跡の量的知識を活用すれば,模倣も可能となることを示した。
最後に,専門家の軌道から模倣政策を学習するための効率的な手順を開発する。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - How To Guide Your Learner: Imitation Learning with Active Adaptive
Expert Involvement [20.91491585498749]
本稿では,教師と学生のインタラクションモデルに基づく,新しいアクティブな模倣学習フレームワークを提案する。
本稿では,AdapMenによるエラー境界の改善と,軽度条件下での複合的エラーの回避について述べる。
論文 参考訳(メタデータ) (2023-03-03T16:44:33Z) - Imitating Past Successes can be Very Suboptimal [145.70788608016755]
既存の結果条件付き模倣学習手法が必ずしもポリシーを改善できないことを示す。
簡単な修正が、政策改善を保証する方法をもたらすことを示す。
我々の目的は、全く新しい方法を開発するのではなく、成果条件付き模倣学習の変種が報酬を最大化するためにどのように使用できるかを説明することである。
論文 参考訳(メタデータ) (2022-06-07T15:13:43Z) - Diverse Imitation Learning via Self-Organizing Generative Models [6.783186172518836]
模倣学習は、報酬関数へのアクセスなしに、デモンストレーションから専門家のポリシーを複製するタスクである。
我々は,行動クローニング(BC)のためのエンコーダフリー生成モデルを採用し,異なるモードを正確に識別し,模倣する。
提案手法は,複数の実験において技量を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-05-06T21:55:31Z) - Imitation by Predicting Observations [17.86983397979034]
本研究では, 連続制御タスクの課題に対して, 専門家に匹敵する性能を達成できる観測結果のみを模倣する新しい手法を提案する。
提案手法は, 逆RL目標から導出され, 専門家の観察結果の生成モデルを用いて学習した専門家の行動モデルを用いて模倣する。
本稿では,DeepMind Control Suiteベンチマークにおける強力なベースラインIRL法(GAIL)に対して,タスク非関連機能の存在下でGAILよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-07-08T14:09:30Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [89.01584399789951]
歴史的専門家の意思決定を豊富な情報源として利用することを検討します。
観察されたラベルだけで学習する制限を緩和するために活用できることを示しています。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。