論文の概要: Fighting Copycat Agents in Behavioral Cloning from Observation Histories
- arxiv url: http://arxiv.org/abs/2010.14876v1
- Date: Wed, 28 Oct 2020 10:52:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 06:13:26.802260
- Title: Fighting Copycat Agents in Behavioral Cloning from Observation Histories
- Title(参考訳): 行動クローニングにおけるコピーキャット剤との闘い : 観察履歴から
- Authors: Chuan Wen, Jierui Lin, Trevor Darrell, Dinesh Jayaraman, Yang Gao
- Abstract要約: 模倣学習は、入力観察から専門家が選択したアクションにマップするポリシーを訓練する。
本稿では,従来の専門家の行動ニュアンスに関する過剰な情報を除去する特徴表現を学習するための敵対的アプローチを提案する。
- 参考スコア(独自算出の注目度): 85.404120663644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning trains policies to map from input observations to the
actions that an expert would choose. In this setting, distribution shift
frequently exacerbates the effect of misattributing expert actions to nuisance
correlates among the observed variables. We observe that a common instance of
this causal confusion occurs in partially observed settings when expert actions
are strongly correlated over time: the imitator learns to cheat by predicting
the expert's previous action, rather than the next action. To combat this
"copycat problem", we propose an adversarial approach to learn a feature
representation that removes excess information about the previous expert action
nuisance correlate, while retaining the information necessary to predict the
next action. In our experiments, our approach improves performance
significantly across a variety of partially observed imitation learning tasks.
- Abstract(参考訳): 模倣学習は、入力観察から専門家が選択するアクションにマップするポリシーを訓練する。
この設定では、分布シフトは、観測された変数間のニュアサンス相関に対する専門家アクションの誤分配の効果をしばしば悪化させる。
この因果的混乱の一般的な例は、専門家の行動が時間とともに強く相関しているときに部分的に観察される状況において起こることを観察する。
この「コピキャット問題」に対処するために,我々は,先行する専門家行動のニュアサンス関係に関する過剰な情報を排除しつつ,次の行動を予測するために必要な情報を保持しながら,特徴表現を学習するための敵対的アプローチを提案する。
実験では, 様々な模倣学習タスクにおいて, 性能が大幅に向上した。
関連論文リスト
- Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Sequence Model Imitation Learning with Unobserved Contexts [39.4969161422156]
我々は,専門家が学習者から隠されたエピソードごとのコンテキストにアクセス可能な模倣学習問題を考察する。
政治以外のアプローチは、歴史へのアクセスが与えられた場合、実際には悪化する一方で、政治以外のアプローチでは、歴史を使ってコンテキストを識別できることが示される。
論文 参考訳(メタデータ) (2022-08-03T17:27:44Z) - Generalizable Information Theoretic Causal Representation [37.54158138447033]
本稿では,観測データから因果表現を学習するために,仮説因果グラフに基づいて相互情報量で学習手順を規則化することを提案する。
この最適化は、因果性に着想を得た学習がサンプルの複雑さを減らし、一般化能力を向上させるという理論的保証を導出する反ファクト的損失を伴う。
論文 参考訳(メタデータ) (2022-02-17T00:38:35Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - ACP++: Action Co-occurrence Priors for Human-Object Interaction
Detection [102.9428507180728]
ヒューマン・オブジェクト・インタラクション(HOI)検出のタスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関関係と反相関が存在することを観察した。
我々は、これらの先行知識を学習し、特に稀なクラスにおいて、より効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T06:02:50Z) - Feedback in Imitation Learning: Confusion on Causality and Covariate
Shift [12.93527098342393]
我々は,過去の行動に対する条件付けが,学習者の「実行」エラーと性能の劇的な相違につながることを論じる。
我々は、模倣学習アプローチをテストするために使用される既存のベンチマークを分析する。
従来の文献とは驚くほど対照的に,行動的クローン化は優れた結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-02-04T20:18:56Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - On Evaluating Weakly Supervised Action Segmentation Methods [79.42955857919497]
本研究は、弱い教師付き行動セグメント化アプローチの使用と評価の2つの側面に焦点を当てる。
それぞれの手法をBreakfastデータセット上で5回トレーニングし、平均および標準偏差を提供する。
実験の結果,これらの反復に対する標準偏差は1~2.5%であり,異なるアプローチの比較に大きく影響していることがわかった。
論文 参考訳(メタデータ) (2020-05-19T20:30:31Z) - D\'ej\`a vu: A Contextualized Temporal Attention Mechanism for
Sequential Recommendation [34.505472771669744]
我々は、過去の出来事がユーザの現在の行動に与える影響は、時間や状況によって異なるべきであると論じる。
本研究では、歴史的行動がどのような行動であるだけでなく、その行動がいつ、どのように行われたかにも影響を及ぼすことを学習する文脈化された時間的注意機構を提案する。
論文 参考訳(メタデータ) (2020-01-29T20:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。