論文の概要: EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2505.23830v1
- Date: Wed, 28 May 2025 08:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.546598
- Title: EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models
- Title(参考訳): EvoMoE: マルチモーダル大規模言語モデルのためのエキスパートの混在におけるエキスパートの進化
- Authors: Linglin Jing, Yuting Gao, Zhigang Wang, Wang Lan, Yiwen Tang, Wenhai Wang, Kaipeng Zhang, Qingpei Guo,
- Abstract要約: MLLM(Multi-modal large language model)は、MoE技術を採用した。
MoEの専門家は、単にLPMからFFNパラメータを複製することで、しばしば発生する。
専門家の統一性は、MOEの専門家が単に LLM から FFN パラメータを複製することによって生じることが多いためである。
ルータの剛性は 専門家の選択に 静的リニアルータが 広く使われていることに由来する
- 参考スコア(独自算出の注目度): 25.12002287083368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements have shown that the Mixture of Experts (MoE) approach significantly enhances the capacity of large language models (LLMs) and improves performance on downstream tasks. Building on these promising results, multi-modal large language models (MLLMs) have increasingly adopted MoE techniques. However, existing multi-modal MoE tuning methods typically face two key challenges: expert uniformity and router rigidity. Expert uniformity occurs because MoE experts are often initialized by simply replicating the FFN parameters from LLMs, leading to homogenized expert functions and weakening the intended diversification of the MoE architecture. Meanwhile, router rigidity stems from the prevalent use of static linear routers for expert selection, which fail to distinguish between visual and textual tokens, resulting in similar expert distributions for image and text. To address these limitations, we propose EvoMoE, an innovative MoE tuning framework. EvoMoE introduces a meticulously designed expert initialization strategy that progressively evolves multiple robust experts from a single trainable expert, a process termed expert evolution that specifically targets severe expert homogenization. Furthermore, we introduce the Dynamic Token-aware Router (DTR), a novel routing mechanism that allocates input tokens to appropriate experts based on their modality and intrinsic token values. This dynamic routing is facilitated by hypernetworks, which dynamically generate routing weights tailored for each individual token. Extensive experiments demonstrate that EvoMoE significantly outperforms other sparse MLLMs across a variety of multi-modal benchmarks, including MME, MMBench, TextVQA, and POPE. Our results highlight the effectiveness of EvoMoE in enhancing the performance of MLLMs by addressing the critical issues of expert uniformity and router rigidity.
- Abstract(参考訳): 近年の進歩により、Mixture of Experts (MoE) アプローチは大規模言語モデル(LLM)の能力を大幅に向上し、下流タスクのパフォーマンスを向上させることが示されている。
これらの有望な結果に基づいて、Multi-modal large language model (MLLM) は MoE 技術を採用した。
しかし、既存のマルチモーダルMOEチューニング手法は、専門家の均一性とルータの剛性という2つの大きな課題に直面している。
専門家の統一性は、MOEの専門家が単にLLMからFFNパラメータを複製するだけで初期化され、均質化された専門家関数が得られ、MoEアーキテクチャの意図した多様化が弱まるためである。
一方、ルータの剛性は、ビジュアルトークンとテキストトークンの区別に失敗し、画像とテキストに類似した専門家分布をもたらす、静的線形ルータを専門家選択に広く使用することに由来する。
これらの制約に対処するため、革新的なMoEチューニングフレームワークであるEvoMoEを提案する。
EvoMoEは、厳密に設計された専門家初期化戦略を導入し、単一のトレーニング可能な専門家から複数の堅牢な専門家を段階的に進化させる。
さらに、動的トークン認識ルータ(DTR)を導入し、入力トークンを適切な専門家に割り当てる新しいルーティング機構について、そのモダリティと固有のトークン値に基づいて紹介する。
この動的ルーティングは、個々のトークンに合わせて調整されたルーティングウェイトを動的に生成するハイパーネットワークによって促進される。
大規模な実験により、EvoMoEは、MME、MMBench、TextVQA、POPEを含む様々なマルチモーダルベンチマークにおいて、他のスパースMLLMよりも大幅に優れていることが示された。
本結果は,専門家の統一性とルータ剛性の重要な問題に対処し,MLLMの性能向上におけるEvoMoEの有効性を強調した。
関連論文リスト
- OMoE: Diversifying Mixture of Low-Rank Adaptation by Orthogonal Finetuning [3.8813502422318127]
低ランク適応(LoRA)のためのMixix-of-experts(MoE)アーキテクチャは、パラメータ効率の微調整(PEFT)における潜在的方向として出現している。
まず,バニラMoEの類似表現に専門家が崩壊し,モジュール設計の能力と計算効率が制限されることを示す定性解析を行った。
これらの知見に触発されて、直交混合(OMoE)を提案する。
提案手法は,バニラMOEモデルと比較して最小限の専門家を惹起するため,メモリボトルネックを緩和する。
論文 参考訳(メタデータ) (2025-01-17T09:27:08Z) - Scalable Multi-Domain Adaptation of Language Models using Modular Experts [10.393155077703653]
MoDEは、モジュール化されたドメインの専門家による一般的なPLMを強化する、エキスパートの混成アーキテクチャである。
MoDEは完全なパラメータの微調整に匹敵する目標性能を達成し、保持性能は1.65%向上した。
論文 参考訳(メタデータ) (2024-10-14T06:02:56Z) - DA-MoE: Towards Dynamic Expert Allocation for Mixture-of-Experts Models [1.4255659581428335]
そこで本稿では,DA-MoEモデルに対して,有効トークン重要度に基づく可変数のエキスパートを動的に割り当てる手法を提案する。
提案手法は,最新のトランスフォーマーベースのMoEモデルをGLUEベンチマークで一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2024-09-10T17:36:15Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。