論文の概要: Visual Representation Alignment for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2509.07979v1
- Date: Tue, 09 Sep 2025 17:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.436089
- Title: Visual Representation Alignment for Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルのための視覚表現アライメント
- Authors: Heeji Yoon, Jaewoo Jung, Junwan Kim, Hyungyu Choi, Heeseong Shin, Sangbeom Lim, Honggyu An, Chaehyun Kim, Jisang Han, Donghyun Kim, Chanho Eom, Sunghwan Hong, Seungryong Kim,
- Abstract要約: マルチモーダルな大規模言語モデル (MLLM) は、視覚的指導のチューニングで訓練され、様々なタスクにまたがって高い性能を達成している。
しかし、それらはオブジェクトのカウントや空間的推論のような視覚中心のタスクに限られている。
本稿では、MLLMの内部視覚表現と事前学習された視覚基盤モデルとを整合させる、シンプルで効果的な正規化戦略である視覚表現アライメント(VIRAL)を提案する。
- 参考スコア(独自算出の注目度): 38.319869213758686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) trained with visual instruction tuning have achieved strong performance across diverse tasks, yet they remain limited in vision-centric tasks such as object counting or spatial reasoning. We attribute this gap to the prevailing text-only supervision paradigm, which provides only indirect guidance for the visual pathway and often leads MLLMs to discard fine-grained visual details during training. In this paper, we present VIsual Representation ALignment (VIRAL), a simple yet effective regularization strategy that aligns the internal visual representations of MLLMs with those of pre-trained vision foundation models (VFMs). By explicitly enforcing this alignment, VIRAL enables the model not only to retain critical visual details from the input vision encoder but also to complement additional visual knowledge from VFMs, thereby enhancing its ability to reason over complex visual inputs. Our experiments demonstrate consistent improvements across all tasks on widely adopted multimodal benchmarks. Furthermore, we conduct comprehensive ablation studies to validate the key design choices underlying our framework. We believe this simple finding opens up an important direction for the effective integration of visual information in training MLLMs.
- Abstract(参考訳): マルチモーダルな大規模言語モデル (MLLM) は、様々なタスクにまたがって高い性能を達成しているが、オブジェクトカウントや空間推論のような視覚中心のタスクに限られている。
このギャップは、視覚経路の間接的なガイダンスのみを提供し、訓練中にMLLMに細かい視覚的詳細を破棄させるという、テキストのみの監視パラダイムに起因している。
本稿では、MLLMの内部視覚表現と事前学習された視覚基盤モデル(VFM)とを整合させる、シンプルで効果的な正規化戦略である視覚表現アライメント(VIRAL)を提案する。
このアライメントを明示的に実施することにより、VIRALは入力視覚エンコーダから重要な視覚的詳細を保持するだけでなく、VFMからの付加的な視覚的知識を補完し、複雑な視覚的入力を推論する能力を高めることができる。
我々の実験は、広く採用されているマルチモーダルベンチマークにおいて、全てのタスクにおいて一貫した改善を示す。
さらに,フレームワークの基盤となる重要な設計選択を検証するため,包括的アブレーション研究を実施している。
この単純な発見は、MLLMのトレーニングにおいて視覚情報の効果的な統合のための重要な方向を開くと信じている。
関連論文リスト
- BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Models [10.16893890191528]
マルチモーダル大言語モデル (MLLM) は、視覚プロジェクタを用いて、よく訓練された視覚エンコーダと大きな言語モデルをブリッジすることで、視覚的理解を実現する。
現在のアライメントアプローチは、視覚埋め込みを文脈的手がかりとして扱い、単にテキスト出力に自己回帰的監督を適用するだけである。
本稿では,初期視覚埋め込み生成において,プロジェクタを直接指導する手法として,LLM内の洗練された視覚埋め込みを利用するBASICを提案する。
論文 参考訳(メタデータ) (2025-08-09T09:00:45Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。