論文の概要: Too Late to Recall: Explaining the Two-Hop Problem in Multimodal Knowledge Retrieval
- arxiv url: http://arxiv.org/abs/2512.03276v1
- Date: Tue, 02 Dec 2025 22:31:43 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:59:42.245015
- Title: Too Late to Recall: Explaining the Two-Hop Problem in Multimodal Knowledge Retrieval
- Title(参考訳): リコールの遅すぎる - マルチモーダル知識検索におけるツーホップ問題の説明
- Authors: Constantin Venhoff, Ashkan Khakzar, Sonia Joseph, Philip Torr, Neel Nanda,
- Abstract要約: 視覚言語モデル(VLM)は、視覚エンコーダからの視覚表現と、事前訓練された大言語モデル(LLM)のテキスト表現との整合を図ることを目的としている。
14モデルのうち11モデルが事実的リコール劣化を示した。
高性能なVLMは、既存のファクトリコール機構を再利用するのに十分な早くエンティティ表現を解決します。
- 参考スコア(独自算出の注目度): 28.475457214103404
- License:
- Abstract: Training vision language models (VLMs) aims to align visual representations from a vision encoder with the textual representations of a pretrained large language model (LLM). However, many VLMs exhibit reduced factual recall performance compared to their LLM backbones, raising the question of how effective multimodal fine-tuning is at extending existing mechanisms within the LLM to visual inputs. We argue that factual recall based on visual inputs requires VLMs to solve a two-hop problem: (1) forming entity representations from visual inputs, and (2) recalling associated factual knowledge based on these entity representations. By benchmarking 14 VLMs with various architectures (LLaVA, Native, Cross-Attention), sizes (7B-124B parameters), and training setups on factual recall tasks against their original LLM backbone models, we find that 11 of 14 models exhibit factual recall degradation. We select three models with high and two models with low performance degradation, and use attribution patching, activation patching, and probing to show that degraded VLMs struggle to use the existing factual recall circuit of their LLM backbone, because they resolve the first hop too late in the computation. In contrast, high-performing VLMs resolve entity representations early enough to reuse the existing factual recall mechanism. Finally, we demonstrate two methods to recover performance: patching entity representations from the LLM backbone into the VLM, and prompting with chain-of-thought reasoning. Our results highlight that the speed of early entity resolution critically determines how effective VLMs are in using preexisting LLM mechanisms. More broadly, our work illustrates how mechanistic analysis can explain and unveil systematic failures in multimodal alignment.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚エンコーダからの視覚表現と、事前訓練された大言語モデル(LLM)のテキスト表現との整合を図ることを目的としている。
しかしながら、多くのVLMは、LPMのバックボーンと比較して、事実的リコール性能が低下しており、LCM内の既存のメカニズムを視覚入力に拡張する上で、マルチモーダル微調整がどの程度効果的かという疑問が提起されている。
視覚的インプットに基づく事実的リコールには,(1)視覚的インプットから実体表現を形成すること,(2)これらの実体表現に基づいて関連する事実的知識をリコールすること,という2つのホップ問題を解決するために,VLMが必要である,と我々は主張する。
様々なアーキテクチャ (LLaVA, Native, Cross-Attention), サイズ (7B-124Bパラメータ) で14のVLMをベンチマークし, 元のLLMバックボーンモデルに対して実際のリコールタスクのトレーニング設定を行うことで, 14モデル中11モデルが実リコール劣化を示した。
性能劣化の少ない3つのモデルと2つのモデルを選択し, 帰属パッチ, アクティベーションパッチ, およびプローブを用いて, 劣化したVLMが, 計算に遅すぎるため, 既存のLCMバックボーンのファクトリコール回路を使用するのに苦労していることを示す。
対照的に、高性能なVLMは、既存のファクトリコール機構を再利用するのに十分な早くエンティティ表現を解決します。
最後に、LCMのバックボーンからVLMへのエンティティ表現のパッチ適用と、チェーン・オブ・シークレットの推論の2つの手法を実証する。
この結果から, 初期実体分解能の速度は, 既存のLDM機構を用いて, VLMの有効性を決定することが示唆された。
より広範に、我々の研究は、メカニスティック分析がマルチモーダルアライメントにおける体系的な障害を説明し、明らかにする方法を示している。
関連論文リスト
- A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Cross-Modal Attention Guided Unlearning in Vision-Language Models [16.460281156521646]
VLM(Vision-Language Models)は、マルチモーダル理解および推論タスクにおいて、膨大な能力を示す。
VLMは、クエリの視覚的コンテキストがテキストに加えてセンシティブな情報も含んでいる可能性があるため、このプロセスに複雑さの層を追加します。
我々は、軽量で効率的なVLMアンラーニングフレームワークであるCross-Modal Attentioned Unlearning(CAGUL)を定式化する。
論文 参考訳(メタデータ) (2025-10-08T21:21:59Z) - Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models [19.361686225381447]
視覚言語モデル(VLM)は、文脈内学習(ICL)を示すと広く想定されている
提案するMM-ICLにはReasoningパイプラインが組み込まれている。
論文 参考訳(メタデータ) (2025-06-09T16:55:32Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Blind Spot Navigation: Evolutionary Discovery of Sensitive Semantic Concepts for LVLMs [24.76767896607915]
最近の研究では、モデルは視覚入力の特定の意味に特に敏感であり、エラーを起こしやすいことが示唆されている。
そこで本研究では,大規模視覚言語モデル(LVLM)の最初の探索を行った。
画像中の特定の意味概念に直面すると,LVLMは幻覚や様々な誤りの影響を受けることが判明した。
論文 参考訳(メタデータ) (2025-05-21T08:45:43Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models [27.5219975853389]
事前学習された視覚・言語モデル (VLM) と大規模言語モデル (LLM) は,様々な視覚コモンセンス推論問題に長けている。
画像内容以外の結論を推測することが目的である場合、VLMは困難に直面し、LLMは十分な視覚的証拠を与えられた場合、その答えをよく推測するために常識を使用することができる。
論文 参考訳(メタデータ) (2023-10-09T17:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。