論文の概要: VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors
- arxiv url: http://arxiv.org/abs/2604.02486v1
- Date: Thu, 02 Apr 2026 19:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.190352
- Title: VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors
- Title(参考訳): VLMには言葉が必要だ:視覚言語モデル
- Authors: Haz Sameen Shahgir, Xiaofu Chen, Yu Fu, Erfan Shayegani, Nael Abu-Ghazaleh, Yova Kementchedjhieva, Yue Dong,
- Abstract要約: 視覚言語モデル(VLM)は、幅広いマルチモーダルタスクにおいて印象的なパフォーマンスを達成する。
しかし、必要な情報が内部表現に存在する場合でも失敗することが多い。
このギャップは、視覚情報をテキスト空間に移動することに焦点を当てた、狭いトレーニングパイプラインから生じている。
- 参考スコア(独自算出の注目度): 14.288057170664983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) achieve impressive performance across a wide range of multimodal tasks. However, on some tasks that demand fine-grained visual perception, they often fail even when the required information is present in their internal representations. In this work, we demonstrate that this gap arises from their narrow training pipeline which focuses on moving visual information to the textual space. Consequently, VLMs can only reason about visual entities that can be mapped to known concepts in the language space, leaving vision-focused tasks such as visual correspondence and reasoning about novel visual entities poorly supported. As a result, VLMs are severely limited in several important multimodal capabilities because they rely on brittle, hallucinated textual descriptions of visual entities that they cannot map to textual representations. We verify this behavior through visual correspondence tasks, in which VLMs must detect matching entities between two images. Testing across semantic, shape, and face correspondence tasks, we find that VLMs perform much better when the relevant entities are nameable in language than when they are unnameable. Mechanistically, our Logit Lens analyses confirm that VLMs explicitly assign semantic labels to nameable entities and surface more unique corresponding tokens compared to unnameable entities. Furthermore, we show that teaching completely arbitrary names for unknown entities improves performance, yet task-specific finetuning yields even stronger generalization without relying on language priors. Our findings suggest that current VLM failures on visual tasks reflect learned shortcuts from their training, rather than a fundamental limitation of multimodal architectures.
- Abstract(参考訳): 視覚言語モデル(VLM)は、幅広いマルチモーダルタスクにおいて印象的なパフォーマンスを達成する。
しかし、微粒な視覚的知覚を必要とするタスクでは、必要な情報が内部表現に存在する場合でも失敗することが多い。
本研究では,視覚情報をテキスト空間に移動させることに焦点をあてた,狭いトレーニングパイプラインから,このギャップが生じることを実証する。
したがって、VLMは言語空間の既知の概念にマッピングできる視覚的実体のみを推論することができ、視覚的対応や新しい視覚的実体の推論といった視覚的なタスクは不十分である。
結果として、VLMは、テキスト表現にマッピングできない視覚的実体の脆く幻覚的なテキスト記述に依存しているため、いくつかの重要なマルチモーダル機能において著しく制限されている。
この動作は視覚対応タスクによって検証され、VLMは2つの画像間の一致した実体を検出する必要がある。
セマンティック、形状、対面対応タスクでテストしたところ、VLMは言語で名前付け可能な場合よりも、言語で名前付け可能な場合の方がはるかに優れていることが分かりました。
メカニカルに、本誌のLogit Lens分析では、VLMが意味ラベルを名付け可能なエンティティに明示的に割り当て、名前付けできないエンティティよりもユニークな対応するトークンをサーフェスすることを確認しています。
さらに、未知のエンティティに対して完全に任意の名前を教えることで、性能が向上するが、タスク固有の微調整は、言語の事前に頼らずにさらに強力な一般化をもたらすことを示す。
この結果から,視覚的タスクにおける現在のVLM障害は,マルチモーダルアーキテクチャの基本的限界ではなく,学習したショートカットを反映していることが示唆された。
関連論文リスト
- Seeing Beyond Redundancy: Task Complexity's Role in Vision Token Specialization in VLLMs [4.469560591280309]
視覚大言語モデル(VLLM)の視覚能力は、その言語能力に常に遅れを取っている。
本研究では,様々な視覚情報がモデルによってどのように処理され,どのような視覚情報が破棄されるかを検討する。
論文 参考訳(メタデータ) (2026-02-06T18:13:01Z) - Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。
VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文 参考訳(メタデータ) (2025-06-09T17:59:54Z) - Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。
そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。
結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文 参考訳(メタデータ) (2025-04-22T17:38:01Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。