論文の概要: Towards Understanding Multimodal Fine-Tuning: Spatial Features
- arxiv url: http://arxiv.org/abs/2602.08713v1
- Date: Fri, 06 Feb 2026 18:48:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.28721
- Title: Towards Understanding Multimodal Fine-Tuning: Spatial Features
- Title(参考訳): マルチモーダルファインチューニングの理解に向けて:空間的特徴
- Authors: Lachin Naghashyar, Hunar Batra, Ashkan Khakzar, Philip Torr, Ronald Clark, Christian Schroeder de Witt, Constantin Venhoff,
- Abstract要約: Vision-Language Models (VLM) は、事前訓練された言語モデルとビジョンエンコーダをペアリングすることで、幅広いタスクにおいて強力なパフォーマンスを達成する。
本稿では,ステージワイドモデル差分法によるVLM適応の最初の力学解析について述べる。
- 参考スコア(独自算出の注目度): 25.349396112139214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary Vision-Language Models (VLMs) achieve strong performance on a wide range of tasks by pairing a vision encoder with a pre-trained language model, fine-tuned for visual-text inputs. Yet despite these gains, it remains unclear how language backbone representations adapt during multimodal training and when vision-specific capabilities emerge. In this work, we present the first mechanistic analysis of VLM adaptation. Using stage-wise model diffing, a technique that isolates representational changes introduced during multimodal fine-tuning, we reveal how a language model learns to "see". We first identify vision-preferring features that emerge or reorient during fine-tuning. We then show that a selective subset of these features reliably encodes spatial relations, revealed through controlled shifts to spatial prompts. Finally, we trace the causal activation of these features to a small group of attention heads. Our findings show that stage-wise model diffing reveals when and where spatially grounded multimodal features arise. It also provides a clearer view of modality fusion by showing how visual grounding reshapes features that were previously text-only. This methodology enhances the interpretability of multimodal training and provides a foundation for understanding and refining how pretrained language models acquire vision-grounded capabilities.
- Abstract(参考訳): 現代の視覚言語モデル(VLM)は、視覚テキスト入力のために微調整された事前訓練された言語モデルとビジョンエンコーダをペアリングすることで、幅広いタスクにおいて強力な性能を達成する。
しかし、これらの進歩にもかかわらず、言語バックボーン表現がマルチモーダルトレーニングの間にどのように適応し、また視覚特有の能力が出現するかは、まだ不明である。
本稿では,VLM適応に関する最初の力学解析について述べる。
マルチモーダル微調整時に導入された表現的変化を分離する手法であるステージワイドモデル差分法を用いて、言語モデルがどのように「見る」ことを学習するかを明らかにする。
まず、微調整中に出現または再帰する視覚優先機能を特定する。
次に、これらの特徴の選択的部分集合が空間的関係を確実に符号化し、空間的プロンプトへの制御シフトによって明らかにすることを示す。
最後に,これらの特徴の因果的活性化を,注目の小さなグループに遡る。
以上の結果から,ステージワイドモデル回折は空間的に接地したマルチモーダルな特徴の出現時期と発生時期を明らかにした。
また、以前はテキストのみであった視覚的なグラウンド化が、どのようにして再認識されるかを示すことで、モダリティ融合のより明確なビューを提供する。
この手法はマルチモーダルトレーニングの解釈可能性を高め、事前学習された言語モデルがどのように視覚的基盤を持つかを理解するための基盤を提供する。
関連論文リスト
- Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - How Visual Representations Map to Language Feature Space in Multimodal LLMs [9.880509106657009]
視覚言語モデル(VLM)が視覚および言語表現のアライメントを実現するメカニズムについて検討する。
言語モデルを凍結させることにより、視覚データに適応することなく、元の言語表現を確実に維持する。
視覚表現が言語特徴表現と徐々に整合し、中から後期の層に収束する階層的進行を明らかにする。
論文 参考訳(メタデータ) (2025-06-13T17:34:05Z) - Perceiving Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models [1.9253106218929117]
MLLM(Multimodal Large Language Models)は、視覚的な入力を完全に活用できないことが多い。
われわれのアプローチはまず、MLLMが画像領域の視覚的理解をどのように構築するかについての洞察を与え、その能力を増幅する技術を導入する。
本稿では,視覚的に依存するトークンの予測能力の定量化と,視覚的に困難なタスクの10 pt の高速化により,結果モデルのより優れたマルチモーダル理解を実証する。
論文 参考訳(メタデータ) (2025-05-08T20:04:27Z) - Multi-Faceted Multimodal Monosemanticity [42.64636740703632]
深層マルチモーダルモデルから抽出した解釈可能なモノセマンティックな特徴を解析するために,データ駆動型アプローチを採用する。
具体的には,大規模画像とテキストのペアで学習した視覚言語表現モデルであるCLIPについて検討する。
本稿では,CLIPから学んだ特徴を抽出・解析する多モード解釈可能性ツールと尺度について述べる。
論文 参考訳(メタデータ) (2025-02-16T14:51:07Z) - Analyzing Finetuning Representation Shift for Multimodal LLMs Steering [56.710375516257876]
隠れた状態を解釈可能な視覚的概念とテキスト的概念にマッピングすることを提案する。
これにより、オリジナルモデルや微調整モデルからのシフトなど、特定のセマンティックダイナミクスをより効率的に比較することが可能になります。
また,これらの変化を捉えるためにシフトベクトルを用いることを実証する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。