論文の概要: When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs
- arxiv url: http://arxiv.org/abs/2602.17659v1
- Date: Thu, 19 Feb 2026 18:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.419762
- Title: When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs
- Title(参考訳): Visionが言語をオーバーライドする時 - VLAにおける対実的失敗の評価と軽減
- Authors: Yu Fang, Yuchun Feng, Dong Jing, Jiaqi Liu, Yue Yang, Zhenyu Wei, Daniel Szafir, Mingyu Ding,
- Abstract要約: VLA(Vision-Language-Action Model)は、ロボット制御における言語命令の基盤となることを約束するが、実際には言語に忠実に従わないことが多い。
反ファクトの失敗は、最先端のVLAで発見されていないことが示される。
本稿では,単純な2分岐推論方式であるCAGを提案する。
- 参考スコア(独自算出の注目度): 31.92520697946991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action models (VLAs) promise to ground language instructions in robot control, yet in practice often fail to faithfully follow language. When presented with instructions that lack strong scene-specific supervision, VLAs suffer from counterfactual failures: they act based on vision shortcuts induced by dataset biases, repeatedly executing well-learned behaviors and selecting objects frequently seen during training regardless of language intent. To systematically study it, we introduce LIBERO-CF, the first counterfactual benchmark for VLAs that evaluates language following capability by assigning alternative instructions under visually plausible LIBERO layouts. Our evaluation reveals that counterfactual failures are prevalent yet underexplored across state-of-the-art VLAs. We propose Counterfactual Action Guidance (CAG), a simple yet effective dual-branch inference scheme that explicitly regularizes language conditioning in VLAs. CAG combines a standard VLA policy with a language-unconditioned Vision-Action (VA) module, enabling counterfactual comparison during action selection. This design reduces reliance on visual shortcuts, improves robustness on under-observed tasks, and requires neither additional demonstrations nor modifications to existing architectures or pretrained models. Extensive experiments demonstrate its plug-and-play integration across diverse VLAs and consistent improvements. For example, on LIBERO-CF, CAG improves $π_{0.5}$ by 9.7% in language following accuracy and 3.6% in task success on under-observed tasks using a training-free strategy, with further gains of 15.5% and 8.5%, respectively, when paired with a VA model. In real-world evaluations, CAG reduces counterfactual failures of 9.4% and improves task success by 17.2% on average.
- Abstract(参考訳): VLA(Vision-Language-Action Model)は、ロボット制御における言語命令の基盤となることを約束するが、実際には言語に忠実に従わないことが多い。
例えば、データセットバイアスによって引き起こされる視覚的ショートカットに基づいて行動し、よく学習された振る舞いを繰り返し実行し、言語意図に関係なくトレーニング中によく見られるオブジェクトを選択する。
系統的に研究するために,視覚的に検証可能なLIBEROレイアウトの下で代替命令を割り当てることにより,言語追従能力を評価するVLAの最初の反実的ベンチマークであるLIBERO-CFを紹介する。
我々の評価では、非現実的な失敗は最先端のVLAで発見されていないことが判明した。
本稿では,VLAにおける言語条件を明示的に正規化する単純な2分岐推論方式であるCAGを提案する。
CAGは、標準のVLAポリシーと言語非条件のVision-Action (VA)モジュールを組み合わせることで、アクション選択時の対実的な比較を可能にする。
この設計は、視覚的ショートカットへの依存を減らし、観測されていないタスクの堅牢性を改善し、既存のアーキテクチャや事前訓練されたモデルへの追加のデモンストレーションや修正を必要としない。
大規模な実験では、様々なVLAにまたがるプラグインとプレイの統合と一貫した改善が実証されている。
例えば、LIBERO-CFでは、VAモデルと組み合わせた場合、CAGはπ_{0.5}$を9.7%改善し、トレーニング不要の戦略を用いて未観測タスクのタスク成功率が3.6%向上し、それぞれ15.5%と8.5%向上した。
実世界の評価では、CAGはカウンターファクトの失敗を9.4%削減し、タスクの成功を平均17.2%改善する。
関連論文リスト
- Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment [58.93227458806748]
CoVer-VLAは、訓練された検証器を用いた階層的なテスト時間検証パイプラインである。
我々のフレームワークはビジョン・ランゲージ・モデルから多種多様な説明文をプリコンプリートする。
各命令に対して繰り返しアクション候補を生成し、検証器を使用して最適なハイレベルプロンプトと低レベルアクションチャンクを選択する。
論文 参考訳(メタデータ) (2026-02-12T18:59:59Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models [5.660635614478238]
VLA(Vision-Language-Action)モデルは、汎用的で汎用的なロボットポリシーを作成することを約束する。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語命令,視覚,オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクの統合スイートを導入する。
論文 参考訳(メタデータ) (2025-06-11T16:52:18Z) - BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization [45.97834622654751]
BadVLAはObjective-Decoupled Optimizationに基づくバックドア攻撃手法である。
我々は,BadVLAがクリーンタスク精度に最小限の影響を伴って,ほぼ100%の攻撃成功率を達成することを示す。
我々の研究は、VLAモデルにおけるバックドア脆弱性に関する最初の体系的な調査を提供する。
論文 参考訳(メタデータ) (2025-05-22T13:12:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。