論文の概要: SMoES: Soft Modality-Guided Expert Specialization in MoE-VLMs
- arxiv url: http://arxiv.org/abs/2604.23996v1
- Date: Mon, 27 Apr 2026 03:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.717982
- Title: SMoES: Soft Modality-Guided Expert Specialization in MoE-VLMs
- Title(参考訳): SMoES:MoE-VLMのソフトモダリティガイドによるエキスパートスペシャライゼーション
- Authors: Zi-Hao Bo, Yaqian Li, Anzhou Hou, Rinyoichi Takezoe, Ertao Zhao, Tianxiang Pan, Jiale Yan, Mo Guang, Kaiwen Long,
- Abstract要約: 大規模視覚モデル(VLM)のためのソフトモダリティ誘導エキスパート(SMoES)を提案する。
SMoESは、レイヤ依存の融合パターンをキャプチャする動的軟質度スコアと、専門家と専門家の並列配置に合わせた専門家のバイナリ機構と、バイナリ間の相互情報正規化で構成されている。
4つのMoEベースのVLMと16のベンチマークによる実験では、有効性と効率の両方の改善が示されている。
- 参考スコア(独自算出の注目度): 9.733867547637956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) has become a prevalent backbone for large vision-language models (VLMs), yet how modality-specific signals should guide expert routing remains under-explored. Existing routing strategies are either hand-crafted or modality-agnostic, relying on idealized priors that ignore the layer-dependent modality fusion patterns in MoE-VLMs and provide little guidance for expert specialization. We propose Soft Modality-guided Expert Specialization (SMoES), which consists of dynamic soft modality scores that capture layer-dependent fusion patterns, an expert binning mechanism aligned with expert-parallel deployment, and an inter-bin mutual information regularization that encourages coherent modality specialization. Our method leverages attention-based or Gaussian-statistics modality scores to optimize mutual information regularization. Experiments across four MoE-based VLMs and 16 benchmarks demonstrate improvement on both effectiveness and efficiency: 0.9% and 4.2% average gain on multimodal and language-only tasks, 56.1% reduction in EP communication overhead, and 12.3% throughput improvement under realistic deployment. These results validate that aligning routing with modality-aware expert specialization unlocks MoE-VLM capacity and efficiency.
- Abstract(参考訳): Mixture-of-Experts (MoE) は、大規模な視覚言語モデル(VLM)のバックボーンとして広く使われているが、いかにモダリティ固有の信号が専門家のルーティングを導くべきかは、まだ解明されていない。
既存のルーティング戦略は手作りかモダリティ非依存かのいずれかであり、MoE-VLMの層依存のモダリティ融合パターンを無視し、専門家の専門化のためのガイダンスをほとんど提供しない理想化された事前に依存している。
本稿では,SMOES(Soft Modality-Guided Expert Specialization)を提案する。これは,レイヤ依存の融合パターンをキャプチャする動的軟質度スコアと,専門家-並列配置に整合した専門家結合機構と,コヒーレントなモダリティ特殊化を促進するバイナリ相互情報正規化からなる。
本手法は,アテンションベースあるいはガウス統計のモダリティスコアを活用し,相互情報の正則化を最適化する。
4つのMoEベースのVLMと16のベンチマークによる実験では、マルチモーダルタスクと言語のみのタスクの平均ゲインが0.9%と4.2%、EP通信オーバーヘッドが56.1%減少し、現実的なデプロイで12.3%のスループット改善があった。
これらの結果から,MoE-VLMのキャパシティと効率が向上することが確認された。
関連論文リスト
- Scaling Multi-Node Mixture-of-Experts Inference Using Expert Activation Patterns [10.028141800987548]
スケールでのMoE推論は、専門家の負荷不均衡と非効率なトークンルーティングによってボトルネックとなる。
Llama 4 Maverick, DeepSeek V3-671B, Qwen3-230B-A22B など, SOTA のオープンソース MoE モデルについて検討した。
これらの知見から,ワークロード対応のマイクロバッチグループ化と専門家配置戦略を提案する。
論文 参考訳(メタデータ) (2026-04-25T05:33:03Z) - Complementarity-Supervised Spectral-Band Routing for Multimodal Emotion Recognition [60.20529806857076]
マルチモーダル感情認識は、テキスト、ビデオ、音声などの手がかりを融合させ、個人の感情状態を理解する。
従来の手法では、機械的に独立な単調なパフォーマンスに依存することと、感情タスクで要求されるきめ細かい表現と相反する粗粒の融合という2つの主な制限に直面していた。
我々は,マルチスケールバンド分解とエキスパートコラボレーションを通じて,微細な相補的特徴をモデル化するために,Atsukoという名前のComplementarity-Supervised Multi-Band Expert Networkを提案する。
論文 参考訳(メタデータ) (2026-03-07T03:58:48Z) - Input Domain Aware MoE: Decoupling Routing Decisions from Task Optimization in Mixture of Experts [19.707274733121412]
Sparse Mixture of Experts (sMoE)は、大規模な視覚言語モデルをスケールするための重要なアプローチとなっている。
本稿では、確率的混合モデルを利用して入力空間を分割する新しいルーティングフレームワークであるInput Domain Aware MoEを提案する。
ルーティング確率を分布の混合としてモデル化することにより、バランスの取れた利用を達成しつつ、専門家が明確な特殊化境界を構築できる。
論文 参考訳(メタデータ) (2025-10-18T11:01:03Z) - Adaptive Shared Experts with LoRA-Based Mixture of Experts for Multi-Task Learning [49.90176890917986]
マルチタスク学習(MTL)のための強力なフレームワークとして、Mixture-of-Experts(MoE)が登場した。
既存のMoE-MTL法は、しばしばシングルタスクで事前訓練されたバックボーンに依存し、冗長な適応と非効率的な知識共有に悩まされる。
低ランク適応 (LoRA) に基づく MoE の適応型共有専門家 (ASE) を提案する。
論文 参考訳(メタデータ) (2025-10-01T06:49:19Z) - Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition [54.44798086835314]
音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2025-09-10T10:18:56Z) - MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - Enhancing CTR Prediction with De-correlated Expert Networks [45.50697497028273]
本稿では,専門的相関を最小化するクロスエキスパートデコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレー
我々はD-MoEがMulti-Embedding MoEベースラインと比較して1.19%のGross Merchandise Volume (GMV)リフトを達成することを示す。
論文 参考訳(メタデータ) (2025-05-23T14:04:38Z) - MoECollab: Democratizing LLM Development Through Collaborative Mixture of Experts [0.76146285961466]
大規模言語モデル(LLM)開発はますます集中化され、リソースの豊富な組織への参加が制限されている。
本稿では,Mixture of Experts (MoE) アーキテクチャを利用した分散LLM開発のための新しいフレームワークであるMoECollabを紹介する。
論文 参考訳(メタデータ) (2025-03-16T17:52:40Z) - Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection [19.365009652356793]
エキスパート-トークン共鳴(ETR)は、専門家-トークン相互作用を再想像する理論的な双方向ルーティング機構である。
ETRは、ベースラインのMoE実装と比較して、エンドツーエンドのトレーニング効率が5.4%-46.6%向上している。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。