Fugu-MT 論文翻訳(概要): Your Vision-Language-Action Model Already Has Attention Heads For Path Deviation Detection

論文の概要: Your Vision-Language-Action Model Already Has Attention Heads For Path Deviation Detection

arxiv url: http://arxiv.org/abs/2603.13782v1
Date: Sat, 14 Mar 2026 06:26:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.402676
Title: Your Vision-Language-Action Model Already Has Attention Heads For Path Deviation Detection
Title（参考訳）: 視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線
Authors: Jaehwan Jeong, Evelyn Zhu, Jinying Lin, Emmanuel Jaimes, Tuan-Anh Vu, Jungseock Joo, Sangpil Kim, M. Khalid Jawed,
Abstract要約: VLA(Vision-Language-Action)モデルは、ナビゲーションタスクにおけるセマンティックアクションを予測する強力な可能性を示している。それらは基本的に、軌跡のずれにつながる視覚的な幻覚によって妨げられている。凍結VLAモデル内の注意点数を監視することで,余分な計算オーバーヘッドを伴わずに経路偏差を正確に検出できることを示す。
参考スコア（独自算出の注目度）: 14.088116748512428
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models have demonstrated strong potential for predicting semantic actions in navigation tasks, demonstrating the ability to reason over complex linguistic instructions and visual contexts. However, they are fundamentally hindered by visual-reasoning hallucinations that lead to trajectory deviations. Addressing this issue has conventionally required training external critic modules or relying on complex uncertainty heuristics. In this work, we discover that monitoring a few attention heads within a frozen VLA model can accurately detect path deviations without incurring additional computational overhead. We refer to these heads, which inherently capture the spatiotemporal causality between historical visual sequences and linguistic instructions, as Navigation Heads. Using these heads, we propose an intuitive, training-free anomaly-detection framework that monitors their signals to detect hallucinations in real time. Surprisingly, among over a thousand attention heads, a combination of just three is sufficient to achieve a 44.6 % deviation detection rate with a low false-positive rate of 11.7 %. Furthermore, upon detecting a deviation, we bypass the heavy VLA model and trigger a lightweight Reinforcement Learning (RL) policy to safely execute a shortest-path rollback. By integrating this entire detection-to-recovery pipeline onto a physical robot, we demonstrate its practical robustness. All source code will be publicly available.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、ナビゲーションタスクのセマンティックアクションを予測する強力な可能性を示し、複雑な言語命令や視覚的コンテキストを推論する能力を示している。しかし、それらは基本的に、軌跡のずれにつながる視覚的な幻覚によって妨げられている。この問題に対処するには、従来、外部批判モジュールのトレーニングや複雑な不確実性ヒューリスティックに依存していた。本研究では,凍結VLAモデル内の注意点数を監視することで,余分な計算オーバーヘッドを伴わずに経路偏差を正確に検出できることを示す。歴史的視覚的順序と言語的指示の時空間因果関係を本質的に捉えたこれらの頭部をナビゲーションヘッドと呼ぶ。そこで我々は,これらのヘッドを用いて,幻覚をリアルタイムに検出する信号を監視する,直感的な無訓練異常検出フレームワークを提案する。驚くべきことに、1000以上の注目ヘッドのうち、3つの組み合わせで44.6%の偏差検出率と11.7%の低い偽陽性率を達成するのに十分である。さらに,偏差を検出すると,重度VLAモデルをバイパスし,軽量強化学習(RL)ポリシーを起動し,最短パスロールバックを安全に実行する。検出から回収までのパイプライン全体を物理ロボットに統合することにより、その実用的堅牢性を実証する。すべてのソースコードが公開されている。

関連論文リスト

Mitigating Cognitive Inertia in Large Reasoning Models via Latent Spike Steering [12.332146893333949]
大規模推論モデル(LRM)は、テスト時間計算をスケールすることで、優れた性能を実現している。 LRMは、しばしば認知的慣性(動作慣性)または剛性(方向慣性)のどちらかを過度に考える失敗パターンである認知的慣性(Cognitive Inertia)に悩まされる。
論文参考訳（メタデータ） (2026-01-30T02:47:12Z)
Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering [33.3588824921581]
メタ認知的自己補正プロセスをシミュレートするトレーニングフリー推論フレームワークであるVision-Language Introspection (VLI)を導入する。 VLIは高度なモデルで最先端のパフォーマンスを実現し、MMHal-Benchではオブジェクト幻覚率を12.67%削減し、POPEでは精度を5.8%向上した。
論文参考訳（メタデータ） (2026-01-08T17:49:13Z)
VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文参考訳（メタデータ） (2025-10-01T20:32:08Z)
INSIGHT: INference-time Sequence Introspection for Generating Help Triggers in Vision-Language-Action Models [2.509305596181814]
最近のVision-Language-Action(VLA)モデルは強力な一般化能力を示しているが、失敗を予測したり、人間の上司に助けを求めるための内省的なメカニズムは欠如している。トークンレベルの不確実性信号を利用してVLAがいつ助けを求めるべきかを予測する学習フレームワークである textbfINSIGHT を提案する。
論文参考訳（メタデータ） (2025-10-01T19:22:48Z)
Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文参考訳（メタデータ） (2025-07-06T17:01:02Z)
Visual hallucination detection in large vision-language models via evidential conflict [24.465497252040294]
Dempster-Shafer理論(DST)に基づく不確実性推定によるLVLMの視覚幻覚検出法そこで本研究では,LVLMの視覚幻覚検出手法として,DST(Dempster-Shafer theory)を用いた第1次視覚幻覚検出法を提案する。
論文参考訳（メタデータ） (2025-06-24T11:03:10Z)
Uncertainty-Aware Attention Heads: Efficient Unsupervised Uncertainty Quantification for LLMs [129.79394562739705]
大型言語モデル(LLM)は、顕著な流布を示すが、しばしば「幻覚」として知られる致命的な誤りを引き起こす。本稿では,非教師的アプローチであるRAUQ(Recurrent Attention-based Uncertainty Quantification)を提案する。 4つのLLMと12の質問応答、要約、翻訳タスクにわたる実験は、RAUQが優れた結果をもたらすことを示した。
論文参考訳（メタデータ） (2025-05-26T14:28:37Z)
Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文参考訳（メタデータ） (2024-11-01T04:05:59Z)
Detecting Invisible People [58.49425715635312]
我々は,追跡ベンチマークを再利用し,目立たない物体を検出するための新しい指標を提案する。私たちは、現在の検出および追跡システムがこのタスクで劇的に悪化することを実証します。第2に,最先端の単眼深度推定ネットワークによる観測結果を用いて,3次元で明示的に推論する動的モデルを構築した。
論文参考訳（メタデータ） (2020-12-15T16:54:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。