論文の概要: MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2508.09779v1
- Date: Wed, 13 Aug 2025 13:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.892007
- Title: MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models
- Title(参考訳): MoIIE:大規模視覚言語モデルのためのモダリティ内およびモダリティ間エキスパートの混在
- Authors: Dianyi Wang, Siyuan Wang, Zejun Li, Yikun Wang, Yitong Li, Duyu Tang, Xiaoyu Shen, Xuanjing Huang, Zhongyu Wei,
- Abstract要約: 我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
- 参考スコア(独自算出の注目度): 52.876185634349575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated remarkable performance across multi-modal tasks by scaling model size and training data. However, these dense LVLMs incur significant computational costs and motivate the exploration of sparse Mixture of Experts (MoE) architectures. While MoE improve parameter efficiency, effectively applying MoE to simultaneously model modality-specific features and cross-modal associations in LVLMs remains challenging. In this work, we propose to incorporate Mixture of Intra- and Inter-Modality Experts (MoIIE) to LVLMs. For each token, expert routing is guided by its modality, directing tokens to their respective intra-modality experts as well as a shared pool of inter-modality experts, enabling the model to jointly learn rich intra-modal features and cross-modal interactions. We further introduce an effective and straightforward two-stage training strategy, which facilitates the direct activation of both MoE and multi-modal capabilities. Extensive experiments across different data scales and LLM backbone demonstrate the effectiveness, efficiency and generality of our approach. Notably, our MoIIE models with 5.5B and 11.3B activated parameters match or even surpass the performance of existing advanced open-source MoE-LLMs based multi-modal models that involve more activated parameters. The code is available at https://github.com/AlenjandroWang/MoIIE.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、モデルサイズとトレーニングデータのスケーリングによって、マルチモーダルタスク間で顕著なパフォーマンスを示す。
しかし、これらの高密度なLVLMは計算コストを著しく削減し、スパース・ミックス・オブ・エキスパート(MoE)アーキテクチャの探索を動機付けている。
パラメータ効率は向上するが,モダリティ特化特徴とLVLMの相互関連を同時にモデル化するために,効果的にMoEを適用することは困難である。
本研究では,モダリティ・イントラモダリティ・エキスパートの混合(MoIIE)をLVLMに組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはモダリティによってガイドされ、それぞれのモダリティの専門家にトークンを指示し、モダリティ専門家の共有プールを付与することで、モデルがリッチなモダリティ内特徴とモダリティ間相互作用を共同で学習することを可能にする。
さらに,MoEとマルチモーダル機能の両方を直接活性化させる,効果的で簡単な2段階トレーニング戦略を導入する。
異なるデータスケールとLCMバックボーンにわたる大規模な実験は、我々のアプローチの有効性、効率、一般化性を実証している。
特に,5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存の高度なオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
コードはhttps://github.com/AlenjandroWang/MoIIEで公開されている。
関連論文リスト
- TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - M3-JEPA: Multimodal Alignment via Multi-gate MoE based on the Joint-Embedding Predictive Architecture [6.928469290518152]
マルチモーダルタスクにJEPA(Joint-Embedding Predictive Architecture)を導入する。
入力埋め込みを出力埋め込み空間に予測器で変換し、次に潜在空間上でクロスモーダルアライメントを実行する。
我々は,M3-JEPAが様々なモダリティやタスクの最先端性能を達成でき,未知のデータセットやドメインに一般化でき,学習と推論の両方において計算効率がよいことを示す。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。