論文の概要: GABRIL: Gaze-Based Regularization for Mitigating Causal Confusion in Imitation Learning
- arxiv url: http://arxiv.org/abs/2507.19647v1
- Date: Fri, 25 Jul 2025 19:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:51.384955
- Title: GABRIL: Gaze-Based Regularization for Mitigating Causal Confusion in Imitation Learning
- Title(参考訳): GABRIL:模擬学習における因果関係の緩和のための迷路ベース正規化
- Authors: Amin Banayeeanzade, Fatemeh Bahrani, Yutai Zhou, Erdem Bıyık,
- Abstract要約: 我々は,データ収集期間中に収集した人間の視線データを利用して,ILにおける表現学習を指導するGABRIL(GAze-Based Regularization in Imitation Learning)を紹介する。
我々は、Atari環境とCARLAのBench2Driveベンチマークにおける我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 1.2187048691454239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation Learning (IL) is a widely adopted approach which enables agents to learn from human expert demonstrations by framing the task as a supervised learning problem. However, IL often suffers from causal confusion, where agents misinterpret spurious correlations as causal relationships, leading to poor performance in testing environments with distribution shift. To address this issue, we introduce GAze-Based Regularization in Imitation Learning (GABRIL), a novel method that leverages the human gaze data gathered during the data collection phase to guide the representation learning in IL. GABRIL utilizes a regularization loss which encourages the model to focus on causally relevant features identified through expert gaze and consequently mitigates the effects of confounding variables. We validate our approach in Atari environments and the Bench2Drive benchmark in CARLA by collecting human gaze datasets and applying our method in both domains. Experimental results show that the improvement of GABRIL over behavior cloning is around 179% more than the same number for other baselines in the Atari and 76% in the CARLA setup. Finally, we show that our method provides extra explainability when compared to regular IL agents.
- Abstract(参考訳): イミテーション・ラーニング(Imitation Learning, IL)は、エージェントが人間の専門家によるデモンストレーションから、タスクを教師付き学習問題としてフレーミングすることで、広く採用されているアプローチである。
しかし、ILはしばしば因果的混乱に悩まされ、エージェントは因果関係として急激な相関関係を誤解釈し、分散シフトを伴うテスト環境での性能が低下する。
この問題を解決するために,データ収集期間中に収集した人間の視線データを利用して,ILにおける表現学習をガイドするGABRIL(GAze-Based Regularization in Imitation Learning)を導入する。
GABRILは正規化損失を利用して、専門家の視線を通して特定された因果関係のある特徴に焦点を合わせ、結果として共起変数の効果を緩和する。
我々は、Atari環境とCARLAのBench2Driveベンチマークにおける我々のアプローチを検証する。
実験結果から, GABRILの挙動クローニングによる改善は, アタリの他のベースラインと同等の179%, CARLAの76%であった。
最後に,本手法は通常のILエージェントと比較して説明性が高いことを示す。
関連論文リスト
- Think Global, Act Local: Bayesian Causal Discovery with Language Models in Sequential Data [20.18988024897184]
言語モデル(LM)は、サロゲートを提供するが、独自の問題解決、矛盾、バイアスが伴う。
本稿ではこれらのギャップを埋めるハイブリッドベイズフレームワークBLANCE(Bayesian LM-Augmented Causal Estimation)を提案する。
提案手法は, 直交非巡回グラフ (DAG) から部分アンセストラルグラフ (PAG) への変換により, コヒーレントベイズフレームワーク内のあいまいさを許容する。
論文 参考訳(メタデータ) (2025-06-19T11:45:06Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Preventing Collapse in Contrastive Learning with Orthonormal Prototypes (CLOP) [0.0]
CLOPは、クラス埋め込み間の線形部分空間の形成を促進することにより、神経崩壊を防止するために設計された、新しい半教師付き損失関数である。
CLOPは性能を向上し,学習速度やバッチサイズにまたがる安定性が向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T15:48:16Z) - SMaRt: Improving GANs with Score Matching Regularity [94.81046452865583]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることを示す。
スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Joint Learning of Label and Environment Causal Independence for Graph
Out-of-Distribution Generalization [60.4169201192582]
本稿では,ラベルと環境情報を完全に活用するために,ラベルと環境の因果独立(LECI)を導入することを提案する。
LECIは、合成データセットと実世界のデータセットの両方において、従来の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-06-01T19:33:30Z) - On Counterfactual Data Augmentation Under Confounding [30.76982059341284]
トレーニングデータのバイアスを緩和する手段として、対実データ拡張が出現している。
これらのバイアスは、データ生成プロセスにおいて観測され、観測されていない様々な共役変数によって生じる。
提案手法は,既存の最先端手法が優れた結果を得るのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2023-05-29T16:20:23Z) - UGAE: A Novel Approach to Non-exponential Discounting [9.358303424584902]
人間の行動と整合する非排他的割引法は、しばしば人間のようなエージェントを作成するのに望ましい。
任意の割引でGAEの利点値の計算を可能にするユニバーサル一般化アドバンテージ推定(UGAE)を提案する。
モンテカルロ法により訓練されたUGAEによる非指数割引エージェントは,モンテカルロ法により訓練された変種よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-02-11T16:41:05Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Deep Stable Learning for Out-Of-Distribution Generalization [27.437046504902938]
深層ニューラルネットワークに基づくアプローチは、同様の分布を持つデータとトレーニングデータをテストする際に顕著なパフォーマンスを達成した。
トレーニングとテストデータ間の分散シフトの影響を排除することは、パフォーマンス向上の深層モデルの構築に不可欠です。
トレーニングサンプルの学習重みによる特徴間の依存関係を除去し,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-04-16T03:54:21Z) - Domain Adaptative Causality Encoder [52.779274858332656]
我々は,適応因果同定と局所化の課題に対処するために,依存木の特徴と敵対学習を活用する。
我々は、テキストにあらゆる種類の因果関係を統合する新しい因果関係データセット、MedCausを提案する。
論文 参考訳(メタデータ) (2020-11-27T04:14:55Z) - Improving Generalization in Reinforcement Learning with Mixture
Regularization [113.12412071717078]
そこで本研究では,異なるトレーニング環境からの観察を混合してエージェントを訓練する,mixregという簡単なアプローチを提案する。
Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。
その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2020-10-21T08:12:03Z) - Efficiently Guiding Imitation Learning Agents with Human Gaze [28.7222865388462]
我々は,3つの模擬学習手法を用いて訓練されたエージェントの性能を高めるために,人間のデモ隊の視線手がかりを使用する。
強化学習エージェントの注意とヒトの視線との類似性に基づいて, 視線データを計算的に効率的に活用するための新しいアプローチを提案する。
提案手法は,BCでは95%,BCOでは343%,T-REXでは390%,Atariゲームでは平均20以上のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-28T00:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。