論文の概要: Mixpert: Mitigating Multimodal Learning Conflicts with Efficient Mixture-of-Vision-Experts
- arxiv url: http://arxiv.org/abs/2505.24541v1
- Date: Fri, 30 May 2025 12:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.954943
- Title: Mixpert: Mitigating Multimodal Learning Conflicts with Efficient Mixture-of-Vision-Experts
- Title(参考訳): Mixpert: 効率的なMixture-of-Vision-Expertによるマルチモーダル学習競合の緩和
- Authors: Xin He, Xumeng Han, Longhui Wei, Lingxi Xie, Qi Tian,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は複雑な画像情報のニュアンス解釈を必要とする。
多様なタスクドメインを扱うために、単一のビジョンエンコーダにのみ依存することは、困難であり、必然的に衝突につながることを証明します。
単一ビジョンエンコーダからジョイントラーニングの利点を継承する,効率的なミキシング・オブ・ビジョン・エキスパートアーキテクチャであるMixpertを導入する。
- 参考スコア(独自算出の注目度): 104.73983712940816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) require a nuanced interpretation of complex image information, typically leveraging a vision encoder to perceive various visual scenarios. However, relying solely on a single vision encoder to handle diverse task domains proves difficult and inevitably leads to conflicts. Recent work enhances data perception by directly integrating multiple domain-specific vision encoders, yet this structure adds complexity and limits the potential for joint optimization. In this paper, we introduce Mixpert, an efficient mixture-of-vision-experts architecture that inherits the joint learning advantages from a single vision encoder while being restructured into a multi-expert paradigm for task-specific fine-tuning across different visual tasks. Additionally, we design a dynamic routing mechanism that allocates input images to the most suitable visual expert. Mixpert effectively alleviates domain conflicts encountered by a single vision encoder in multi-task learning with minimal additional computational cost, making it more efficient than multiple encoders. Furthermore, Mixpert integrates seamlessly into any MLLM, with experimental results demonstrating substantial performance gains across various tasks.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) は複雑な画像情報の微妙な解釈を必要とし、視覚エンコーダを利用して様々な視覚シナリオを知覚する。
しかし、多様なタスクドメインを扱うために単一のビジョンエンコーダにのみ依存することは困難であり、必然的に衝突を引き起こす。
最近の研究は、複数のドメイン固有の視覚エンコーダを直接統合することで、データ知覚を強化するが、この構造は複雑さを増し、共同最適化の可能性を制限する。
本稿では,単一ビジョンエンコーダから共同学習の利点を継承し,異なる視覚タスクをまたいだタスク固有微調整のためのマルチエキスパートパラダイムに再構成した,効率的なミックス・オブ・ビジョン・エキスパートアーキテクチャであるMixpertを紹介する。
さらに、入力画像を最も適した視覚専門家に割り当てる動的ルーティング機構を設計する。
Mixpertは、マルチタスク学習において単一のビジョンエンコーダが直面するドメインの衝突を、最小限の計算コストで効果的に軽減し、複数のエンコーダよりも効率的にする。
さらに、Mixpertは任意のMLLMにシームレスに統合され、様々なタスクでかなりのパフォーマンス向上を示す実験結果が得られた。
関連論文リスト
- An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - MOVE: A Mixture-of-Vision-Encoders Approach for Domain-Focused Vision-Language Processing [2.0249250133493195]
マルチモーダル言語モデル(MLM)は、視覚エンコーダと大きな言語モデルとを特定のアダプタを介して結合することにより、視覚情報とテキスト情報を統合する。
我々は、複数の事前学習されたエンコーダを特殊タスクに活用するMOVE(Mixture of Visions)を提案する。
論文 参考訳(メタデータ) (2025-02-21T11:05:30Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.41055673919895]
本研究では,視覚エンコーダと解像度の混合を用いたMLLMの設計空間について検討する。
視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - MoVA: Adapting Mixture of Vision Experts to Multimodal Context [38.8308841469793]
我々は,タスク固有の視覚エキスパートを適応的にルーティングし,粗い機構で融合する,強力で斬新なMLLMであるMoVAを提案する。
粗い段階では、最適な視覚専門家を動的に選択するためのコンテキスト対応の専門家ルーティング戦略を設計する。
粒度の細かい段階では、タスク固有の知識を抽出して融合するために、Mix-of-vision-Expert Adapter (MoV-Adapter) を精巧に実施する。
論文 参考訳(メタデータ) (2024-04-19T17:59:48Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - M2-CLIP: A Multimodal, Multi-task Adapting Framework for Video Action
Recognition [39.92547393649842]
これらの課題に対処するために,新しいMultimodal,Multi-task CLIP適応フレームワークの名前付きフレームワークを導入する。
ゼロショットシナリオにおける強力な一般化を維持しつつ、教師あり学習における例外的な性能を示す。
論文 参考訳(メタデータ) (2024-01-22T02:03:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。