論文の概要: Feedback in Imitation Learning: Confusion on Causality and Covariate
Shift
- arxiv url: http://arxiv.org/abs/2102.02872v1
- Date: Thu, 4 Feb 2021 20:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 14:46:44.293020
- Title: Feedback in Imitation Learning: Confusion on Causality and Covariate
Shift
- Title(参考訳): 模倣学習におけるフィードバック:因果関係と共変シフトの融合
- Authors: Jonathan Spencer, Sanjiban Choudhury, Arun Venkatraman, Brian Ziebart,
J. Andrew Bagnell
- Abstract要約: 我々は,過去の行動に対する条件付けが,学習者の「実行」エラーと性能の劇的な相違につながることを論じる。
我々は、模倣学習アプローチをテストするために使用される既存のベンチマークを分析する。
従来の文献とは驚くほど対照的に,行動的クローン化は優れた結果をもたらすことが判明した。
- 参考スコア(独自算出の注目度): 12.93527098342393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning practitioners have often noted that conditioning policies
on previous actions leads to a dramatic divergence between "held out" error and
performance of the learner in situ. Interactive approaches can provably address
this divergence but require repeated querying of a demonstrator. Recent work
identifies this divergence as stemming from a "causal confound" in predicting
the current action, and seek to ablate causal aspects of current state using
tools from causal inference. In this work, we argue instead that this
divergence is simply another manifestation of covariate shift, exacerbated
particularly by settings of feedback between decisions and input features. The
learner often comes to rely on features that are strongly predictive of
decisions, but are subject to strong covariate shift.
Our work demonstrates a broad class of problems where this shift can be
mitigated, both theoretically and practically, by taking advantage of a
simulator but without any further querying of expert demonstration. We analyze
existing benchmarks used to test imitation learning approaches and find that
these benchmarks are realizable and simple and thus insufficient for capturing
the harder regimes of error compounding seen in real-world decision making
problems. We find, in a surprising contrast with previous literature, but
consistent with our theory, that naive behavioral cloning provides excellent
results. We detail the need for new standardized benchmarks that capture the
phenomena seen in robotics problems.
- Abstract(参考訳): 模擬学習の実践者は、以前の行動のコンディショニングポリシーが「ホールドアウト」エラーと学習者のパフォーマンスの間に劇的な相違をもたらすとしばしば指摘している。
インタラクティブなアプローチは、この相違に確実に対処できますが、デモレータの繰り返しクエリが必要です。
最近の研究は、この相違が現在の行動を予測する「因果関係」に由来すると認識し、因果推論のツールを用いて現在の状態の因果的側面を緩和しようと試みている。
この研究では、この分散は単に共変量シフトの現れであり、特に意思決定と入力機能の間のフィードバックの設定によって悪化していると論じる。
学習者は多くの場合、決定を強く予測するが、強い共変量シフトの対象となる特徴に依存する。
我々の研究は、このシフトを理論的にも実際的にも、シミュレーターの利点を生かして、専門家のデモンストレーションを問うことなく緩和できる、幅広い種類の問題を示している。
私たちは、模倣学習のアプローチをテストするために使用される既存のベンチマークを分析し、これらのベンチマークは実現可能で単純であるため、現実世界の意思決定問題で見られる難しいエラー混合の体制を捉えるには不十分です。
従来の文献とは驚くほど対照的に,行動的クローン化は優れた結果をもたらす,という我々の理論と一致している。
ロボット工学の問題に見られる現象を捉えた、新しい標準ベンチマークの必要性を詳述する。
関連論文リスト
- Towards Non-Adversarial Algorithmic Recourse [20.819764720587646]
反実的な説明とは対照的に、敵対的な例は、それらが根底的な真実よりも誤分類につながるという独特の特徴を持っていると論じられている。
本稿では,非対人的アルゴリズムの議論を紹介するとともに,高い状況下では,対人的特徴を示さない対実的説明を得ることが不可欠である理由を概説する。
論文 参考訳(メタデータ) (2024-03-15T14:18:21Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [62.71847873326847]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。
予期せぬ結果のコンテキストが与えられた場合、このタスクは説明を生成するために故意に推論する必要がある。
私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文 参考訳(メタデータ) (2023-11-14T19:00:55Z) - On Continuity of Robust and Accurate Classifiers [3.8673630752805437]
敵の訓練が仮説の堅牢性を向上させることが示されている。
仮説の頑健性と正確性は互いに相反していることが示唆されている。
本稿では,その頑健さと精度に相容れない仮説の連続性について,その代替案を提示する。
論文 参考訳(メタデータ) (2023-09-29T08:14:25Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文 参考訳(メタデータ) (2022-11-04T18:00:02Z) - Covariate Shift in High-Dimensional Random Feature Regression [44.13449065077103]
共変量シフトは、堅牢な機械学習モデルの開発において重要な障害である。
現代の機械学習の文脈における理論的理解を示す。
論文 参考訳(メタデータ) (2021-11-16T05:23:28Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Fighting Copycat Agents in Behavioral Cloning from Observation Histories [85.404120663644]
模倣学習は、入力観察から専門家が選択したアクションにマップするポリシーを訓練する。
本稿では,従来の専門家の行動ニュアンスに関する過剰な情報を除去する特徴表現を学習するための敵対的アプローチを提案する。
論文 参考訳(メタデータ) (2020-10-28T10:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。