論文の概要: AutoFocus-IL: VLM-based Saliency Maps for Data-Efficient Visual Imitation Learning without Extra Human Annotations
- arxiv url: http://arxiv.org/abs/2511.18617v2
- Date: Tue, 25 Nov 2025 17:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 15:01:35.388463
- Title: AutoFocus-IL: VLM-based Saliency Maps for Data-Efficient Visual Imitation Learning without Extra Human Annotations
- Title(参考訳): AutoFocus-IL:人間の余分なアノテーションを使わずにデータ効率の良い視覚模倣学習のためのVLMベースのサリエンシマップ
- Authors: Litian Gong, Fatemeh Bahrani, Yutai Zhou, Amin Banayeeanzade, Jiachen Li, Erdem Bıyık,
- Abstract要約: AutoFocus-ILは、視覚模倣学習におけるデータ効率と一般化を改善するための、シンプルで効果的な方法である。
気晴らしや素早い相関よりも、タスク関連機能への参加をポリシーに導いている。
- 参考スコア(独自算出の注目度): 6.339475422553523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AutoFocus-IL is a simple yet effective method to improve data efficiency and generalization in visual imitation learning by guiding policies to attend to task-relevant features rather than distractors and spurious correlations. Although saliency regularization has emerged as a promising way to achieve this, existing approaches typically require costly supervision such as human gaze data or manual saliency annotations. In contrast, AutoFocus-IL leverages vision-language models (VLMs) to automatically identify and track key objects in demonstrations, generating temporal saliency maps that highlight causal visual signals while suppressing distractors. These maps are then used to regularize behavior cloning policies, yielding stronger alignment between visual attention and task-relevant cues. Experiments in both the CARLA simulator and real-robot manipulation tasks demonstrate that AutoFocus-IL not only outperforms standard behavior cloning but also surpasses state-of-the-art baselines that assume privileged access to human supervision, such as gaze data. Code, datasets, and trained policy videos are available at https://AutoFocus-IL.github.io/.
- Abstract(参考訳): AutoFocus-ILは、注意散らしや急激な相関よりも、タスク関連機能に対処するためのポリシーを導くことで、視覚模倣学習におけるデータ効率と一般化を改善する、シンプルで効果的な方法である。
しかし既存のアプローチでは、人間の視線データや手動の唾液検査アノテーションといったコストのかかる監視が必要になります。
対照的に、AutoFocus-ILは視覚言語モデル(VLM)を活用して、デモでキーオブジェクトを自動的に識別し、追跡し、因果視覚信号をハイライトし、邪魔者を抑えながら、時間的空間マップを生成する。
これらのマップは、行動クローニングポリシーを標準化するために使用され、視覚的注意とタスク関連キューのより強いアライメントをもたらす。
CARLAシミュレータと実ロボット操作タスクの両方の実験では、AutoFocus-ILは標準的な行動クローンよりも優れているだけでなく、視線データのような人間の監督への特権的アクセスを前提とした最先端のベースラインを超越している。
コード、データセット、トレーニング済みのポリシービデオはhttps://AutoFocus-IL.github.io/.com/で公開されている。
関連論文リスト
- Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues [69.24378760740171]
本稿では,乱れたシーンにおけるロバスト性の欠如に対する解決策として,ビジュモータ・ポリシー・プールについて考察する。
AFA(Attentive Feature Aggregation)は、タスク関連視覚的キューに自然に出席することを学ぶ軽量でトレーニング可能なプール機構である。
以上の結果から,視覚情報を無視することは,堅牢で汎用的な視覚運動ポリシーの展開に向けた重要なステップであることが示唆された。
論文 参考訳(メタデータ) (2025-11-13T19:31:05Z) - Multi-Keypoint Affordance Representation for Functional Dexterous Grasping [26.961157077703756]
本稿では,機能的デキスタラスグルーピングのためのマルチキーポイントアプライアンス表現を提案する。
本手法は,機能的接触点の局在化により,タスク駆動型グリップ構成を符号化する。
提案手法は,手頃な局所化精度,一貫性の把握,未知のツールやタスクへの一般化を著しく改善する。
論文 参考訳(メタデータ) (2025-02-27T11:54:53Z) - Object-Centric Latent Action Learning [70.3173534658611]
本稿では,画素ではなくオブジェクトを対象とする,オブジェクト中心の潜在動作学習フレームワークを提案する。
我々は、自己教師対象中心の事前学習を利用して、行動関連や注意をそらすダイナミクスを歪めている。
その結果, 物体中心の事前学習は, トラクタの負の効果を50%軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training [8.479135285935113]
人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存しており、これは有能な物体を優先する。
視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:08Z) - SalienDet: A Saliency-based Feature Enhancement Algorithm for Object
Detection for Autonomous Driving [160.57870373052577]
未知の物体を検出するために,サリエンデット法(SalienDet)を提案する。
我々のSaienDetは、オブジェクトの提案生成のための画像機能を強化するために、サリエンシに基づくアルゴリズムを利用している。
オープンワールド検出を実現するためのトレーニングサンプルセットにおいて、未知のオブジェクトをすべてのオブジェクトと区別するためのデータセットレザベリングアプローチを設計する。
論文 参考訳(メタデータ) (2023-05-11T16:19:44Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Automated Self-Supervised Learning for Graphs [37.14382990139527]
本研究の目的は、複数のプリテキストタスクを効果的に活用する方法を検討することである。
我々は、多くの実世界のグラフ、すなわちホモフィリーの鍵となる原理を、様々な自己教師付きプレテキストタスクを効果的に探索するためのガイダンスとして利用している。
本稿では,自己教師型タスクの組み合わせを自動的に検索するAutoSSLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。