論文の概要: MACS: Modality-Aware Capacity Scaling for Efficient Multimodal MoE Inference
- arxiv url: http://arxiv.org/abs/2605.05225v1
- Date: Sun, 19 Apr 2026 07:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.613817
- Title: MACS: Modality-Aware Capacity Scaling for Efficient Multimodal MoE Inference
- Title(参考訳): MACS: 効率的なマルチモーダルMOE推論のためのモダリティ対応キャパシティスケーリング
- Authors: Bo Li, Chuan Wu, shaolin Zhu,
- Abstract要約: マルチモーダル多言語モデル(Multimodal Large Language Models, MoE MLLMs)は, ストラグラー効果によるエキスパート並列性(EP)推論において, 顕著な効率ボトルネックに悩まされる。
そこで我々は,MACS(Modality-Aware Capacity Scaling)をトレーニング不要な推論フレームワークとして提案する。
具体的には、MACSはエントロピー重み付け機構を導入し、視覚トークンの意味値を定量化し、情報の不均一性に対処する。さらに、動的モダリティ適応キャパシティ機構は、入力のリアルタイムなモーダル合成に基づいて、エキスパートリソースを割り当てる。
- 参考スコア(独自算出の注目度): 25.81851757648691
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mixture-of-Experts Multimodal Large Language Models (MoE MLLMs) suffer from a significant efficiency bottleneck during Expert Parallelism (EP) inference due to the straggler effect. This issue is worsened in the multimodal context, as existing token-count-based load balancing methods fail to address two unique challenges: (1) Information Heterogeneity, where numerous redundant visual tokens are treated equally to semantically critical ones, and (2) Modality Dynamics, where varying visual to text ratios across tasks lead to resource misallocation. To address these challenges, we propose MACS (Modality-Aware Capacity Scaling), a training-free inference framework. Specifically, MACS introduces an Entropy-Weighted Load mechanism to quantify the semantic value of visual tokens, addressing information heterogeneity. Additionally, the Dynamic Modality-Adaptive Capacity mechanism allocates expert resources based on the real-time modal composition of the input. Extensive experiments demonstrate that MACS significantly outperforms existing methods on various multimodal benchmarks, providing a novel and robust solution for the efficient deployment of MoE MLLMs in EP inference.
- Abstract(参考訳): マルチモーダル多言語モデル(Multimodal Large Language Models, MoE MLLMs)は, ストラグラー効果によるエキスパート並列性(EP)推論において, 顕著な効率ボトルネックに悩まされる。
既存のトークン数に基づくロードバランシング手法では,(1)多数の冗長な視覚トークンが意味的に重要なものと同等に扱われる情報異質性,(2)タスク間で視覚とテキストの比率が変化するモダリティダイナミクスという2つのユニークな課題に対処できないため,この問題はマルチモーダルな文脈で悪化する。
これらの課題に対処するため、トレーニング不要な推論フレームワークであるMACS(Modality-Aware Capacity Scaling)を提案する。
特に、MACSはエントロピー重み付け機構を導入し、視覚トークンの意味的値を定量化し、情報の不均一性に対処する。
さらに、Dynamic Modality-Adaptive Capacityメカニズムは、入力のリアルタイムなモーダル合成に基づいて専門家のリソースを割り当てる。
大規模な実験により、MACSは様々なマルチモーダルベンチマークの既存手法よりも大幅に優れており、EP推論におけるMoE MLLMの効率的な展開のための新しい堅牢なソリューションを提供する。
関連論文リスト
- AlignMamba-2: Enhancing Multimodal Fusion and Sentiment Analysis with Modality-Aware Mamba [56.52470564147458]
マルチモーダル融合と感情分析のための効率的かつ効率的なフレームワークである textbfAlignMamba-2 を提案する。
提案手法では, 最適輸送距離と最大平均離散度の両方を用いてモデルを正規化する2つのアライメント戦略を導入する。
さらに重要なことは、モダリティに特有かつモダリティに偏ったエキスパートによるMixture-of-Expertsアーキテクチャを採用したModality-Aware Mamba層を設計することです。
論文 参考訳(メタデータ) (2026-03-19T03:47:21Z) - MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models [16.69997403621672]
Modality-Aware Smoothing Quantization (MASQuant)は、Modality-Aware Smoothing (MAS)を紹介する新しいフレームワークである。
MASQuantはデュアルモーダルおよびトリモーダルMLLM間の安定量子化性能を示す。
実験の結果,MASQuantは最先端のPTQアルゴリズムと競合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T04:41:32Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer-based Fusion Network for Multimodal Sentiment Analysis [0.0]
マルチモーダルセンチメント分析(MSA)は、複数のデータモーダルを利用して人間の感情を分析する。
既存のMSAモデルでは、MSA能力を促進するために、最先端のマルチモーダル融合と表現学習に基づく手法が一般的である。
提案するGSIFNは,これらの問題を解決するために2つの主成分を組み込んでいる。
これはInterlaced Mask機構を採用し、堅牢なマルチモーダルグラフ埋め込みを構築し、オールモーダルインワントランスフォーマーベースの融合を実現し、計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-08-27T06:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。