Fugu-MT 論文翻訳(概要): Arbitration Failure, Not Perceptual Blindness: How Vision-Language Models Resolve Visual-Linguistic Conflicts

論文の概要: Arbitration Failure, Not Perceptual Blindness: How Vision-Language Models Resolve Visual-Linguistic Conflicts

arxiv url: http://arxiv.org/abs/2604.09364v2
Date: Mon, 13 Apr 2026 13:46:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 14:47:45.899114
Title: Arbitration Failure, Not Perceptual Blindness: How Vision-Language Models Resolve Visual-Linguistic Conflicts
Title（参考訳）: 視覚言語モデルによる視覚言語対立の解決方法
Authors: Farhad Nooralahzadeh, Omid Rohanian, Yi Zhang, Jonathan Fürst, Kurt Stockinger,
Abstract要約: 視覚的属性は、初期層から線形にデオード可能であることを示す。初期のレイヤでのトレーニング不要なアクティベーションは、いくつかの設定で性能を低下させることなく、最大3.8%の視覚的グラウンド化を向上できることを示す。
参考スコア（独自算出の注目度）: 7.071615105094556
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When a Vision-Language Model (VLM) sees a blue banana and answers "yellow", is the problem of perception or arbitration? We explore the question in ten VLMs with various sizes and reveal an Encoding-Grounding Dissociation: models that fail to report what they see (and thus provide a wrong answer) still encode the visual evidence as strongly as models that provide the correct answer. Using Multimodal Arbitration Crossover (MAC) analysis with layer-by-layer Logit Lens probing, we track the competition between visual and prior signals across every layer of each model. We show that visual attributes can be linearly decodable from early layers (AUC > 0.86). The accuracy remains nearly identical for both successful and failed samples. However, the gap in the final-layer logit - not the strength of encoding - better predicts grounding outcomes with a correlation of $ρ=$ 0.847. After having studied when VLMs base their answers on image clues rather than prior knowledge, we want to understand the causal relationships. We establish causality through full-sequence activation patching. The standard last-token interventions in LLM interpretability do not affect VLMs. In contrast, replacing the full token sequence at layers identified by MAC alters 60 to 84% of outputs. Partial-token decomposition shows that image tokens carry almost all of the causal impact, while text tokens have none. Scaling addresses the remaining architectural differences to achieve perfect retention. Moving from diagnosis to intervention, we show that training-free activation steering - both linear and sparse autoencoder-guided - in early layers can improve visual grounding by up to +3.8% with degrading performance in some setups. Overall, these findings lead to a clear conclusion: VLMs already see well, but the challenge is acting on what they see. Targeted interventions can help to bridge this gap.
Abstract（参考訳）: ビジョン・ランゲージ・モデル(VLM)が青いバナナを見て「黄」と答えると、知覚や仲裁の問題か? 私たちは、様々な大きさの10のVLMでこの疑問を探求し、エンコード・グラウンド・ディソシエーション(Encoding-Grounding Dissociation)を明らかにします。層間ロジットレンズによるMAC解析を用いて,各モデルの各層間の視覚信号と先行信号の競合を追跡する。視覚特性は初期層(AUC > 0.86)から線形にデオード可能であることを示す。精度は成功したサンプルと失敗したサンプルの両方でほぼ同じである。しかし、最終層ロジットのギャップは符号化の強さではなく、$ρ=$ 0.847の相関で基底結果を予測するのがよい。 VLMが先行知識ではなく画像手がかりに基づいて回答を学習した後、因果関係を理解したい。フルシーケンスアクティベーションパッチによって因果関係を確立する。 LLMの解釈可能性における最終段階の介入は、VLMに影響を与えない。対照的にMACによって特定された層での完全なトークンシーケンスを置き換えると、出力の60～84%が変化する。部分トークン分解は、画像トークンがほとんどすべての因果的影響を担っていることを示しているが、テキストトークンは存在しない。スケーリングは、完全な維持を達成するための残りのアーキテクチャ上の違いに対処する。診断から介入へ移行すると、初期層におけるトレーニング不要なアクティベーションステアリング(リニアおよびスパースオートエンコーダ誘導)は、いくつかの設定で性能が低下し、最大3.8%の視覚的グラウンドリングを改善することが示される。 VLMはすでによく見えていますが、課題は彼らが見ているものに作用しています。ターゲットとした介入は、このギャップを埋めるのに役立ちます。

関連論文リスト

From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。 LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文参考訳（メタデータ） (2026-04-01T11:40:12Z)
All You Need Are Random Visual Tokens? Demystifying Token Pruning in VLLMs [43.80391827200227]
ディープレイヤでは、既存のトレーニングフリープルーニング手法はランダムプルーニングに勝る。ビジュアルトークンは、ネットワーク深度の増加に伴い、徐々にサリエンスを失う。深層層での単純なランダムプルーニングは性能と効率のバランスを効果的に表す。
論文参考訳（メタデータ） (2025-12-08T14:16:01Z)
Reading Between the Lines: Abstaining from VLM-Generated OCR Errors via Latent Representation Probes [79.36545159724703]
隠れ状態や注目パターンの軽量プローブを学習するためのLRP(Latent Representation Probing)を提案する。 LRPは、ベストベースラインよりも吸音精度を7.6%向上させる。これにより、デプロイメント対応AIシステムを構築するための原則化されたフレームワークが確立される。
論文参考訳（メタデータ） (2025-11-25T00:24:42Z)
Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding [41.828387997311474]
LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。それらは、まだ存在しない、または誤認されたオブジェクトの記述を生成する、オブジェクト幻覚の傾向にある。本稿では,複数のLVLMからの予測を集約することで幻覚を緩和する,学習不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ated)を提案する。
論文参考訳（メタデータ） (2025-10-21T06:11:24Z)
Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。 Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文参考訳（メタデータ） (2025-08-27T15:40:25Z)
Can VLMs Recall Factual Associations From Visual References? [30.821053378797007]
視覚言語モデル(VLM)のマルチモーダルグラウンドリングにおける系統的欠陥を同定する。 VLMは、実体のイメージ表現に頼らざるを得ず、現実の知識を思い出す能力を持っている。このようなリンク障害は、モデル内部状態における異なるパターンの表現と相関していることを示す。
論文参考訳（メタデータ） (2025-08-22T16:47:37Z)
Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-02-06T18:43:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。