論文の概要: Visual Instruction Tuning Aligns Modalities through Abstraction
- arxiv url: http://arxiv.org/abs/2606.03871v1
- Date: Tue, 02 Jun 2026 16:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.169461
- Title: Visual Instruction Tuning Aligns Modalities through Abstraction
- Title(参考訳): 抽象を通してモダリティを調整した視覚インストラクション
- Authors: Luis Palacios, Lorenzo Basile, Diego Doimo, Alberto Cazzaniga,
- Abstract要約: 命令チューニングがブリッジとして機能し,視覚的特徴を大言語モデルの中間的意味層に直接埋め込むことを示す。
これらの中間層は、視覚言語処理のセマンティックコアであり、幅広いマルチモーダルベンチマークの性能において重要な役割を担っていることを示す。
- 参考スコア(独自算出の注目度): 7.963871750032694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual instruction tuning effectively adapts a pre-trained Large Language Model (LLM) to process image information alongside text. Yet, it remains unclear how visual features are embedded into the layer-wise hierarchy of abstractions of the LLM backbone. Across a diverse set of vision-language architectures, we show that instruction tuning primarily serves as a bridge, embedding visual features directly into the intermediate semantic layers of the LLM, bypassing the early layers devoted to unimodal processing. With probing analyses and causal interventions, we show that these intermediate layers are the semantic core of vision-language processing and play a critical role in the performance on a broad set of multimodal benchmarks. In addition, by comparing the geometry of semantically equivalent visual and textual representations, we find that fine-tuning extends and strengthens the existing abstraction phase, aligning visual features with pre-existing textual ones. Finally, we confirm the functional role of this localized alignment by restricting fine-tuning to intermediate layers alone: this strategy preserves the performance of full fine-tuning on vision-centric benchmarks while reducing training time. Our results suggest that multimodal integration is a localized phenomenon driven by the repurposing of the internal abstraction engine of the LLM.
- Abstract(参考訳): ビジュアルインストラクションチューニングは、学習済みのLarge Language Model (LLM) を効果的に適応させ、テキストと共に画像情報を処理する。
しかし、LLMバックボーンの抽象化の階層的階層に視覚機能が組み込まれているかは、まだ不明である。
多様な視覚言語アーキテクチャにおいて、命令チューニングは主にブリッジとして機能し、視覚的特徴をLLMの中間的意味層に直接埋め込むことで、非モーダル処理に係わる初期レイヤをバイパスすることを示します。
探索解析と因果介入により、これらの中間層が視覚言語処理のセマンティックコアであり、幅広いマルチモーダルベンチマークのパフォーマンスにおいて重要な役割を果たすことを示す。
さらに,意味的に等価な視覚的およびテキスト的表現の幾何学を比較することで,微調整が既存の抽象フェーズを拡張し,既存のテキスト的表現と視覚的特徴を整合させる。
最後に、この局所的なアライメントの役割を、中間層のみに微調整を限定することで確認する。
この結果から,マルチモーダル統合はLLMの内部抽象エンジンの再利用による局所化現象であることが示唆された。
関連論文リスト
- Semantic Generative Tuning for Unified Multimodal Models [62.18894352635965]
統一マルチモーダルモデル(UMM)は、単一のアーキテクチャ内で視覚的理解と視覚的生成を統合する。
訓練パラダイムは 独立して テキスト信号を通して 理解を最適化する 密集したピクセルの目的を通して 生成する
本研究は,UMMの分離を橋渡しするための生成プロキシとして階層的視覚タスクを定式化する,生成後学習に関する最初の体系的な研究である。
論文 参考訳(メタデータ) (2026-05-18T17:46:46Z) - Seg-Agent: Test-Time Multimodal Reasoning for Training-Free Language-Guided Segmentation [52.8308168727975]
Seg-Agentは完全にトレーニング不要のフレームワークで、Explicit Multimodal Chain-of-Reasoningの先駆者です。
提案手法は, 生成, 選択, 洗練の3段階からなる対話型視覚推論ループを構築する。
various-LangSegは、明示的なセマンティック、ジェネリックオブジェクト、推論誘導セグメンテーションタスクをカバーする新しいベンチマークである。
論文 参考訳(メタデータ) (2026-05-13T03:36:44Z) - Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models [84.94288033791346]
我々は,MLLMにおける視覚的表現の劣化という,広範にわたる課題を明らかにするために,詳細な診断分析を行う。
我々は,この現象を,単一のテキスト生成目標によって引き起こされる視覚的犠牲とみなし,そのモデルが解答生成の最適化のためにその視覚的忠実度を損なう。
本研究では,初期視覚特性を予測するために,劣化した中間特徴を強制的に予測し,MLLMの内部表現に固有の視覚特性を維持するための予測正則化を提案する。
論文 参考訳(メタデータ) (2026-03-21T13:10:37Z) - Stateful Cross-layer Vision Modulation [19.730096071316876]
マルチモーダル大言語モデル(MLLM)は、視覚表現を強化するために多層視覚特徴融合を広く採用している。
既存のアプローチは通常、表現形成プロセス自体に介入することなく、視覚符号化後の静的連結や重み付けアグリゲーションを実行する。
本稿では,これらの制約に対処する多層メモリ変調ビジョンフレームワーク(SCVM)を提案する。
論文 参考訳(メタデータ) (2026-02-28T13:57:19Z) - Dynamic Embedding of Hierarchical Visual Features for Efficient Vision-Language Fine-Tuning [5.85033069870214]
動的埋め込みと階層型視覚特徴の融合に基づく効率的な視覚言語微調整法を提案する。
少数のパラメータのみを微調整することで、DEHVFはクロスモーダル情報の正確なアライメントと補完を実現する。
論文 参考訳(メタデータ) (2025-08-25T03:57:46Z) - BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Models [10.16893890191528]
マルチモーダル大言語モデル (MLLM) は、視覚プロジェクタを用いて、よく訓練された視覚エンコーダと大きな言語モデルをブリッジすることで、視覚的理解を実現する。
現在のアライメントアプローチは、視覚埋め込みを文脈的手がかりとして扱い、単にテキスト出力に自己回帰的監督を適用するだけである。
本稿では,初期視覚埋め込み生成において,プロジェクタを直接指導する手法として,LLM内の洗練された視覚埋め込みを利用するBASICを提案する。
論文 参考訳(メタデータ) (2025-08-09T09:00:45Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Document Understanding [79.43306110124875]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。