論文の概要: How Visual Representations Map to Language Feature Space in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2506.11976v1
- Date: Fri, 13 Jun 2025 17:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.899935
- Title: How Visual Representations Map to Language Feature Space in Multimodal LLMs
- Title(参考訳): マルチモーダルLLMにおける言語特徴空間への視覚表現のマッピング
- Authors: Constantin Venhoff, Ashkan Khakzar, Sonia Joseph, Philip Torr, Neel Nanda,
- Abstract要約: 凍結型大言語モデル (LLM) と凍結型視覚変換器 (ViT) を意図的に維持する方法論的枠組みを導入する。
視覚表現が言語特徴表現と徐々に整合し、中から後期の層に収束する階層的進行を明らかにする。
このことは、ViT出力と初期のLCMレイヤーの根本的な相違を示唆し、現在のアダプタベースのアーキテクチャが、モダル間の表現学習を最適に行うかどうかという重要な疑問を提起している。
- 参考スコア(独自算出の注目度): 9.880509106657009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective multimodal reasoning depends on the alignment of visual and linguistic representations, yet the mechanisms by which vision-language models (VLMs) achieve this alignment remain poorly understood. We introduce a methodological framework that deliberately maintains a frozen large language model (LLM) and a frozen vision transformer (ViT), connected solely by training a linear adapter during visual instruction tuning. This design is fundamental to our approach: by keeping the language model frozen, we ensure it maintains its original language representations without adaptation to visual data. Consequently, the linear adapter must map visual features directly into the LLM's existing representational space rather than allowing the language model to develop specialized visual understanding through fine-tuning. Our experimental design uniquely enables the use of pre-trained sparse autoencoders (SAEs) of the LLM as analytical probes. These SAEs remain perfectly aligned with the unchanged language model and serve as a snapshot of the learned language feature-representations. Through systematic analysis of SAE reconstruction error, sparsity patterns, and feature SAE descriptions, we reveal the layer-wise progression through which visual representations gradually align with language feature representations, converging in middle-to-later layers. This suggests a fundamental misalignment between ViT outputs and early LLM layers, raising important questions about whether current adapter-based architectures optimally facilitate cross-modal representation learning.
- Abstract(参考訳): 効果的なマルチモーダル推論は視覚的および言語的表現のアライメントに依存するが、視覚言語モデル(VLM)がこのアライメントを実現するメカニズムはいまだに理解されていない。
本稿では,視覚的インストラクションチューニング中に線形アダプタをトレーニングすることによってのみ接続された,凍結型大言語モデル (LLM) と凍結型視覚変換器 (ViT) を意図的に維持する手法を提案する。
言語モデルを凍結し続けることで、視覚データに適応することなく、元の言語表現を確実に維持する。
したがって、線形アダプタは、言語モデルが微調整によって特別な視覚的理解を発達させるのではなく、LLMの既存の表現空間に直接視覚的特徴をマッピングする必要がある。
実験的な設計により,LLMの事前訓練されたスパースオートエンコーダ(SAE)を解析プローブとして使用できる。
これらのSAEは変化のない言語モデルと完全に整合し、学習した言語の特徴表現のスナップショットとして機能する。
本研究では,SAE再構成誤り,スパーシティパターン,特徴SAE記述の体系的解析を通じて,視覚表現が言語特徴表現と徐々に一致し,中~後期の層に収束する階層的進行を明らかにする。
このことは、ViT出力と初期のLCMレイヤーの根本的な相違を示唆し、現在のアダプタベースのアーキテクチャが、モーダルな表現学習を最適に行うかどうかという重要な疑問を提起している。
関連論文リスト
- Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。
著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文 参考訳(メタデータ) (2024-10-09T17:55:02Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Bridging Vision and Language Spaces with Assignment Prediction [47.04855334955006]
VLAPは、事前訓練された視覚モデルと大規模言語モデル(LLM)を橋渡しする新しいアプローチである
2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。
VLAPは、以前の線形変換ベースのアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-15T10:04:15Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。