論文の概要: Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding
- arxiv url: http://arxiv.org/abs/2509.23050v1
- Date: Sat, 27 Sep 2025 02:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.007586
- Title: Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding
- Title(参考訳): 組込みの連鎖からLVLMに先立つ言語を理解する
- Authors: Lin Long, Changdae Oh, Seongheon Park, Yixuan Li,
- Abstract要約: 大規模視覚言語モデル(LVLM)における言語の最初の体系的解析について述べる。
それぞれのモデルが視覚統合ポイント(VIP)を示しており、視覚情報が隠れた表現を意味的に再形成し、デコードに影響を与える重要な層である。
9つの現代のLVLMと6つのベンチマークにまたがる54のモデル-データセットの組み合わせにおいて、VIPは一貫して出現し、TVIは言語の強さを確実に予測することを示した。
- 参考スコア(独自算出の注目度): 22.825453438006814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) achieve strong performance on multimodal tasks, yet they often default to their language prior (LP) -- memorized textual patterns from pre-training while under-utilizing visual evidence. Prior analyses of LP mostly rely on input-output probing, which fails to reveal the internal mechanisms governing when and how vision influences model behavior. To address this gap, we present the first systematic analysis of language prior through the lens of chain-of-embedding, which examines the layer-wise representation dynamics within LVLMs. Our analysis reveals a universal phenomenon: each model exhibits a Visual Integration Point (VIP), a critical layer at which visual information begins to meaningfully reshape hidden representations and influence decoding. Building on this observation, we introduce the Total Visual Integration (TVI) estimator, which aggregates representation distance beyond the VIP to quantify how strongly visual query influences response generation. Across 54 model-dataset combinations spanning 9 contemporary LVLMs and 6 benchmarks, we demonstrate that VIP consistently emerges, and that TVI reliably predicts the strength of language prior. This offers a principled toolkit for diagnosing and understanding language prior in LVLMs.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、マルチモーダルタスクにおいて強力なパフォーマンスを達成するが、多くの場合、事前トレーニングから記憶されたテキストパターンを、視覚的エビデンスを過小評価しながら、言語事前(LP)にデフォルトにする。
LPの以前の分析は、主に入出力探索に依存しており、視覚がモデル行動にいつ、どのように影響するかを決定する内部メカニズムを明らかにするのに失敗している。
このギャップに対処するために,我々は,LVLM内の層ワイド表現のダイナミクスを検証し,組込みのレンズを通して,最初に言語を体系的に解析した。
それぞれのモデルが視覚統合ポイント(VIP)を示しており、視覚情報が隠れた表現を意味的に再形成し、デコードに影響を与える重要な層である。
本稿では,視覚的クエリが応答生成に与える影響を定量化するために,VIP以外の表現距離を集約するTotal Visual Integration (TVI) 推定器を提案する。
9つの現代のLVLMと6つのベンチマークにまたがる54のモデル-データセットの組み合わせにおいて、VIPは一貫して出現し、TVIは言語の強さを確実に予測することを示した。
これは、LVLMに先立って言語を診断し、理解するための原則化されたツールキットを提供する。
関連論文リスト
- Visual Representation Alignment for Multimodal Large Language Models [38.319869213758686]
マルチモーダルな大規模言語モデル (MLLM) は、視覚的指導のチューニングで訓練され、様々なタスクにまたがって高い性能を達成している。
しかし、それらはオブジェクトのカウントや空間的推論のような視覚中心のタスクに限られている。
本稿では、MLLMの内部視覚表現と事前学習された視覚基盤モデルとを整合させる、シンプルで効果的な正規化戦略である視覚表現アライメント(VIRAL)を提案する。
論文 参考訳(メタデータ) (2025-09-09T17:59:14Z) - Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - Vision and Intention Boost Large Language Model in Long-Term Action Anticipation [39.66216219048517]
長期的な行動予測は、長期にわたる将来の行動を予測することを目的としている。
近年の研究では、大きな言語モデル(LLM)を利用して、深刻な情報損失を被るテキストベースの入力を活用している。
本研究では,視覚データのリッチなセマンティック情報を完全に活用する,新しいインテンシブ・コンディション・ビジョン・ランゲージ(ICVL)モデルを提案する。
論文 参考訳(メタデータ) (2025-05-03T06:33:54Z) - Unveiling Visual Perception in Language Models: An Attention Head Analysis Approach [33.20992355312175]
MLLM(Multimodal Large Language Models)の最近の進歩は、視覚的理解の著しい進歩を示している。
本稿では,4つのモデルファミリーと4つのモデルスケールにまたがる系統的な調査により,この問題に対処することを目的とする。
分析の結果,これらの注意ヘッドの挙動,注意重みの分布,および入力中の視覚的トークンへの集中との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2024-12-24T02:31:24Z) - Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge [24.538839144639653]
LVLM(Large Vision-Language Models)は、学習済みのビジョンと言語コンポーネントを個別に統合する。
これらのモデルはしばしば、視覚エンコーダ(VE)と大言語モデル(LLM)の「認知的不整合」の中核的な問題に遭遇する。
論文 参考訳(メタデータ) (2024-11-25T18:33:14Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。