論文の概要: Visual Representations inside the Language Model
- arxiv url: http://arxiv.org/abs/2510.04819v1
- Date: Mon, 06 Oct 2025 14:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.88641
- Title: Visual Representations inside the Language Model
- Title(参考訳): 言語モデル内の視覚表現
- Authors: Benlin Liu, Amita Kamath, Madeleine Grunde-McLaughlin, Winson Han, Ranjay Krishna,
- Abstract要約: 本研究では,視覚情報の流れを言語モデルを用いて研究し,画像値トークンが十分な情報をエンコードし,認知度の高いタスクを遂行することを示した。
入力された視覚エンコーディングのプロジェクションから受信した視覚情報を言語モデルで拡張するが、複数のタスクの視覚情報は同等の視覚エンコーダ(SigLIP)よりも少ない。
次に、画像入力にテキストプレフィックスを追加することで、視覚表現の知覚能力を向上させることを示し、言語モデルにおける視覚情報制御について議論する。
- 参考スコア(独自算出の注目度): 36.35124375782294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite interpretability work analyzing VIT encoders and transformer activations, we don't yet understand why Multimodal Language Models (MLMs) struggle on perception-heavy tasks. We offer an under-studied perspective by examining how popular MLMs (LLaVA-OneVision, Qwen2.5-VL, and Llama-3-LLaVA-NeXT) process their visual key-value tokens. We first study the flow of visual information through the language model, finding that image value tokens encode sufficient information to perform several perception-heavy tasks zero-shot: segmentation, semantic correspondence, temporal correspondence, and referring expression detection. We find that while the language model does augment the visual information received from the projection of input visual encodings-which we reveal correlates with overall MLM perception capability-it contains less visual information on several tasks than the equivalent visual encoder (SigLIP) that has not undergone MLM finetuning. Further, we find that the visual information corresponding to input-agnostic image key tokens in later layers of language models contains artifacts which reduce perception capability of the overall MLM. Next, we discuss controlling visual information in the language model, showing that adding a text prefix to the image input improves perception capabilities of visual representations. Finally, we reveal that if language models were able to better control their visual information, their perception would significantly improve; e.g., in 33.3% of Art Style questions in the BLINK benchmark, perception information present in the language model is not surfaced to the output! Our findings reveal insights into the role of key-value tokens in multimodal systems, paving the way for deeper mechanistic interpretability of MLMs and suggesting new directions for training their visual encoder and language model components.
- Abstract(参考訳): VITエンコーダとトランスフォーマーのアクティベーションを分析するための解釈可能性の作業にも関わらず、マルチモーダル言語モデル(MLM)が認識量の多いタスクになぜ苦労するのかは、まだ分かっていません。
我々は,MLM (LLaVA-OneVision, Qwen2.5-VL, Llama-3-LLaVA-NeXT) が視覚的キー値トークンをどのように処理するかを検証することによって,未研究の視点を提供する。
まず,視覚情報の流れを言語モデルを用いて研究し,画像値トークンが知覚量の多いタスクであるセグメンテーション,意味対応,時間対応,参照表現検出といったゼロショットを実行するのに十分な情報を符号化していることを確認した。
言語モデルでは,入力された視覚符号化のプロジェクションから受信した視覚情報をMLMの認識能力と相関して拡張するが,MLMの微調整を行わない同等の視覚エンコーダ(SigLIP)よりも,複数のタスクの視覚情報が少ないことがわかった。
さらに,言語モデルの後期層における入力非依存画像キートークンに対応する視覚情報には,MLM全体の知覚能力を低下させる人工物が含まれていることがわかった。
次に、画像入力にテキストプレフィックスを追加することで、視覚表現の知覚能力を向上させることを示し、言語モデルにおける視覚情報制御について議論する。
例えば、BLINKベンチマークのArt Style質問の33.3%では、言語モデルに存在する知覚情報は出力には表示されない。
本研究は,マルチモーダルシステムにおけるキーバリュートークンの役割に関する知見を明らかにするとともに,MDMのより深い機械的解釈可能性を実現するとともに,視覚エンコーダと言語モデルコンポーネントをトレーニングするための新たな方向性を提案する。
関連論文リスト
- Perceiving Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models [1.9253106218929117]
MLLM(Multimodal Large Language Models)は、視覚的な入力を完全に活用できないことが多い。
われわれのアプローチはまず、MLLMが画像領域の視覚的理解をどのように構築するかについての洞察を与え、その能力を増幅する技術を導入する。
本稿では,視覚的に依存するトークンの予測能力の定量化と,視覚的に困難なタスクの10 pt の高速化により,結果モデルのより優れたマルチモーダル理解を実証する。
論文 参考訳(メタデータ) (2025-05-08T20:04:27Z) - Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。
視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。
本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:33:31Z) - Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。
著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文 参考訳(メタデータ) (2024-10-09T17:55:02Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。