論文の概要: Fusion to Enhance: Fusion Visual Encoder to Enhance Multimodal Language Model
- arxiv url: http://arxiv.org/abs/2509.00664v1
- Date: Sun, 31 Aug 2025 02:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.332634
- Title: Fusion to Enhance: Fusion Visual Encoder to Enhance Multimodal Language Model
- Title(参考訳): Fusion to Enhance: Fusion Visual Encoder to Enhance Multimodal Language Model
- Authors: Yifei She, Huangxuan Wu,
- Abstract要約: 本稿では,新しいビジョンタワーフレームワークであるFusion to Enhance (FtZ)を紹介する。
FtZは、意味的に強力なアンカーエンコーダと知覚に富んだ拡張エンコーダを革新的に構成することで、シングルエンコーダ設計を越えている。
この研究は、異種の専門家エンコーダを構成することが、現在のMLLMにおける視覚的認知ボトルネックを克服するための効率的かつ効果的な経路であることを証明している。
- 参考スコア(独自算出の注目度): 1.3663057923522652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have made significant progress in bridging visual perception with high-level textual reasoning. However, they face a fundamental contradiction: while excelling at complex semantic understanding, these models often fail at basic visual tasks that require precise detail perception. This deficiency primarily stems from the prevalent architectural reliance on a single vision encoder optimized for high-level semantic alignment, which inherently sacrifices the ability to capture fine-grained visual information. To address this issue, we introduce Fusion to Enhance (FtZ), a novel vision tower framework. FtZ moves beyond the single-encoder design by innovatively composing a semantically powerful anchor encoder with a perception-rich augmenting encoder via a lightweight Multi-Head Cross-Attention mechanism. Experimental results demonstrate that on several challenging benchmarks demanding fine-grained visual understanding, such as TextVQA, POPE, MMMU, MME and MM-Vet, our FtZ model significantly outperforms baselines that use only a single encoder or existing feature fusion methods. This work proves that composing heterogeneous expert encoders is an efficient and effective path to overcoming the visual perception bottleneck in current MLLMs, offering a new design paradigm for building next-generation AI systems with stronger perceptual capabilities.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は,高レベルテキスト推論による視覚知覚のブリッジ化において,大きな進歩を遂げている。
しかし、それらは根本的な矛盾に直面している:複雑な意味理解に優れる一方で、これらのモデルは正確な詳細認識を必要とする基本的な視覚的タスクで失敗することが多い。
この欠陥は主に、高レベルのセマンティックアライメントに最適化された単一の視覚エンコーダへのアーキテクチャ上の依存が原因であり、これは本質的には、きめ細かい視覚情報をキャプチャする能力を犠牲にするものである。
この問題に対処するために,新しいビジョンタワーフレームワークであるFusion to Enhance (FtZ)を紹介する。
FtZは、より軽量なマルチヘッドクロスアテンション機構を通じて、知覚に富んだ拡張エンコーダを備えた意味的に強力なアンカーエンコーダを革新的に構成することによって、シングルエンコーダ設計を越えている。
実験結果から, TextVQA, POPE, MMMU, MME, MM-Vet などの細粒度の視覚的理解が必要なベンチマークでは,FtZ モデルは単一エンコーダや既存機能融合法のみを用いたベースラインよりも有意に優れていた。
この研究は、異質なエキスパートエンコーダを構成することが、現在のMLLMにおける視覚的認識ボトルネックを克服するための効率的かつ効果的な方法であることを証明し、より強力な知覚能力を持つ次世代AIシステムを構築するための新しい設計パラダイムを提供する。
関連論文リスト
- VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models [82.05514464090172]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。
しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。
視覚とコーディング言語モデルをシームレスにマージする統合フレームワークであるVisCodexを紹介します。
論文 参考訳(メタデータ) (2025-08-13T17:00:44Z) - Investigating Redundancy in Multimodal Large Language Models with Multiple Vision Encoders [17.14555102933619]
MLLM(Multimodal Large Language Models)は、様々な視覚情報を取得するために複数の視覚エンコーダを採用する。
エンコーダの追加によるパフォーマンス向上は、しばしば減少し、パフォーマンスの低下につながる可能性があります。
それぞれのエンコーダのユニークな貢献を定量化するために,条件付き利用率(CUR)という指標を提案する。
論文 参考訳(メタデータ) (2025-07-04T02:38:59Z) - Mixpert: Mitigating Multimodal Learning Conflicts with Efficient Mixture-of-Vision-Experts [104.73983712940816]
マルチモーダル大言語モデル(MLLM)は複雑な画像情報のニュアンス解釈を必要とする。
多様なタスクドメインを扱うために、単一のビジョンエンコーダにのみ依存することは、困難であり、必然的に衝突につながることを証明します。
単一ビジョンエンコーダからジョイントラーニングの利点を継承する,効率的なミキシング・オブ・ビジョン・エキスパートアーキテクチャであるMixpertを導入する。
論文 参考訳(メタデータ) (2025-05-30T12:48:07Z) - EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models [54.234657224615354]
大規模な言語モデルと視覚変換器は、ダウンストリームタスクにおいて大きな転送可能性を実現する、印象的なゼロショット機能を示している。
膨大な画像と言語の事前学習を取り入れているにもかかわらず、これらのマルチモーダルアーキテクチャは、画像データの基底真理から逸脱する応答をしばしば生成する。
幻覚を緩和する現在の方法は、一般的に言語コンポーネントの正規化、融合モジュールの改善、視覚表現を改善するために複数の視覚エンコーダのアンサンブルに焦点を当てている。
従来のコントラスト付き事前学習タスクを手軽に書き換えることで,教育用マルチモーダルアーキテクチャに組み込まれたビジュアルエンコーダが,追加の指導訓練を行なわずに実現可能であることを示す。
論文 参考訳(メタデータ) (2025-01-06T00:39:31Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.41055673919895]
本研究では,視覚エンコーダと解像度の混合を用いたMLLMの設計空間について検討する。
視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - MoVA: Adapting Mixture of Vision Experts to Multimodal Context [38.8308841469793]
我々は,タスク固有の視覚エキスパートを適応的にルーティングし,粗い機構で融合する,強力で斬新なMLLMであるMoVAを提案する。
粗い段階では、最適な視覚専門家を動的に選択するためのコンテキスト対応の専門家ルーティング戦略を設計する。
粒度の細かい段階では、タスク固有の知識を抽出して融合するために、Mix-of-vision-Expert Adapter (MoV-Adapter) を精巧に実施する。
論文 参考訳(メタデータ) (2024-04-19T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。