論文の概要: Vision-Centric Activation and Coordination for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.14349v1
- Date: Thu, 16 Oct 2025 06:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.748467
- Title: Vision-Centric Activation and Coordination for Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルに対する視覚中心の活性化とコーディネート
- Authors: Yunnan Wang, Fan Lu, Kecheng Zheng, Ziyuan Huang, Ziqiang Li, Wenjun Zeng, Xin Jin,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、視覚エンコーダからLLMへのイメージ機能を統合し、高度な理解能力を示す。
しかし、メインストリームMLLMは、重要な視覚中心の情報を無視して、テキストトークンの次のトークン予測によってのみ監督される。
本稿では,ビジョン中心のアクティベーションとコーディネーションによってMLLM表現を最適化するVaCoを紹介する。
- 参考スコア(独自算出の注目度): 42.26911585599856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) integrate image features from visual encoders with LLMs, demonstrating advanced comprehension capabilities. However, mainstream MLLMs are solely supervised by the next-token prediction of textual tokens, neglecting critical vision-centric information essential for analytical abilities. To track this dilemma, we introduce VaCo, which optimizes MLLM representations through Vision-Centric activation and Coordination from multiple vision foundation models (VFMs). VaCo introduces visual discriminative alignment to integrate task-aware perceptual features extracted from VFMs, thereby unifying the optimization of both textual and visual outputs in MLLMs. Specifically, we incorporate the learnable Modular Task Queries (MTQs) and Visual Alignment Layers (VALs) into MLLMs, activating specific visual signals under the supervision of diverse VFMs. To coordinate representation conflicts across VFMs, the crafted Token Gateway Mask (TGM) restricts the information flow among multiple groups of MTQs. Extensive experiments demonstrate that VaCo significantly improves the performance of different MLLMs on various benchmarks, showcasing its superior capabilities in visual comprehension.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)は、視覚エンコーダからLLMへのイメージ機能を統合し、高度な理解能力を示す。
しかし、メインストリームMLLMは、分析能力に不可欠な重要な視覚中心情報を無視して、テキストトークンの次世代予測によってのみ監督される。
このジレンマを追跡するために、VaCoを導入し、マルチビジョン基盤モデル(VFM)からビジョン中心のアクティベーションとコーディネーションによりMLLM表現を最適化する。
VaCoは視覚的識別アライメントを導入し、VFMから抽出したタスク認識の知覚機能を統合し、MLLMのテキスト出力と視覚出力の両方を統一する。
具体的には、学習可能なModular Task Queries(MTQ)とVisual Alignment Layer(VAL)をMLLMに組み込み、多様なVFMの監督の下で特定の視覚信号を活性化する。
VFM間の表現競合を調整するため、TGM(Token Gateway Mask)はMTQの複数のグループ間での情報フローを制限する。
大規模な実験により、VaCoは様々なベンチマークで異なるMLLMの性能を大幅に改善し、視覚的理解における優れた能力を示している。
関連論文リスト
- Visual Representation Alignment for Multimodal Large Language Models [38.319869213758686]
マルチモーダルな大規模言語モデル (MLLM) は、視覚的指導のチューニングで訓練され、様々なタスクにまたがって高い性能を達成している。
しかし、それらはオブジェクトのカウントや空間的推論のような視覚中心のタスクに限られている。
本稿では、MLLMの内部視覚表現と事前学習された視覚基盤モデルとを整合させる、シンプルで効果的な正規化戦略である視覚表現アライメント(VIRAL)を提案する。
論文 参考訳(メタデータ) (2025-09-09T17:59:14Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Enhancing Perception Capabilities of Multimodal LLMs with Training-Free Fusion [40.56646959926701]
マルチモーダルLLM (Multimodal LLMs) は、視覚エンコーダと言語モデルとの整合による視覚能力を備えた言語モデルである。
MLLMの視覚知覚を高める既存の方法は、しばしばより強力な視覚エンコーダを設計する。
市販のMLLMから複数の視覚エンコーダを効率的に活用する新しい統合フレームワークであるVisionFuseを紹介する。
論文 参考訳(メタデータ) (2024-12-02T09:02:28Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [31.88022265176855]
Supervised Embedding Alignment (SEA) は、事前トレーニング中により正確な視覚的テキストアライメントを可能にするトークンレベルのアライメント手法である。
包括的分析により,マルチモーダル統合におけるアダプタの役割について重要な知見が得られた。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。