論文の概要: TEAM: Temporal-Spatial Consistency Guided Expert Activation for MoE Diffusion Language Model Acceleration
- arxiv url: http://arxiv.org/abs/2602.08404v1
- Date: Mon, 09 Feb 2026 09:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.140748
- Title: TEAM: Temporal-Spatial Consistency Guided Expert Activation for MoE Diffusion Language Model Acceleration
- Title(参考訳): TEAM: MoE拡散言語モデルアクセラレーションのための時間空間整合性ガイドエキスパートアクティベーション
- Authors: Linye Wei, Zixiang Luo, Pingzhi Tang, Meng Li,
- Abstract要約: 拡散大言語モデル(dLLMs)は、並列デコードに固有のサポートがあるため、最近注目されている。
MoEアーキテクチャと拡散型デコーディングの基本的なミスマッチを同定する。
TEAMはMoE dLLMを高速化するプラグイン・アンド・プレイフレームワークである。
- 参考スコア(独自算出の注目度): 3.510563137261977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (dLLMs) have recently gained significant attention due to their inherent support for parallel decoding. Building on this paradigm, Mixture-of-Experts (MoE) dLLMs with autoregressive (AR) initialization have further demonstrated strong performance competitive with mainstream AR models. However, we identify a fundamental mismatch between MoE architectures and diffusion-based decoding. Specifically, a large number of experts are activated at each denoising step, while only a small subset of tokens is ultimately accepted, resulting in substantial inference overhead and limiting their deployment in latency-sensitive applications. In this work, we propose TEAM, a plug-and-play framework that accelerates MoE dLLMs by enabling more accepted tokens with fewer activated experts. TEAM is motivated by the observation that expert routing decisions exhibit strong temporal consistency across denoising levels as well as spatial consistency across token positions. Leveraging these properties, TEAM employs three complementary expert activation and decoding strategies, conservatively selecting necessary experts for decoded and masked tokens and simultaneously performing aggressive speculative exploration across multiple candidates. Experimental results demonstrate that TEAM achieves up to 2.2x speedup over vanilla MoE dLLM, with negligible performance degradation. Code is released at https://github.com/PKU-SEC-Lab/TEAM-MoE-dLLM.
- Abstract(参考訳): 拡散大言語モデル(dLLMs)は、並列デコードに固有のサポートがあるため、最近注目されている。
このパラダイムに基づいて、自己回帰(AR)初期化を備えたMixture-of-Experts (MoE) dLLMは、メインストリームのARモデルと強力なパフォーマンスを示す。
しかし,MoEアーキテクチャと拡散型デコーディングの基本的なミスマッチを同定する。
具体的には、多くの専門家が各特定ステップでアクティベートされ、トークンの小さなサブセットのみが最終的に受け入れられ、推論オーバーヘッドが大幅に増加し、レイテンシに敏感なアプリケーションへのデプロイが制限される。
本研究では,より少ないアクティベート専門家でより受け入れられるトークンを有効にすることで,MoE dLLMを高速化するプラグイン・アンド・プレイフレームワークTEAMを提案する。
TEAMは、専門家のルーティング決定がトークン位置の空間的整合性だけでなく、認知レベルにわたって強い時間的整合性を示すという観察に動機付けられている。
これらの特性を活用して、TEAMは3つの補完的な専門家アクティベーションとデコード戦略を採用し、デコードおよびマスクされたトークンに必要な専門家を保守的に選択し、同時に複数の候補に対して積極的な投機的探索を行う。
TEAMはバニラMoE dLLMよりも最大2.2倍のスピードアップを達成でき、性能劣化は無視できる。
コードはhttps://github.com/PKU-SEC-Lab/TEAM-MoE-dLLMで公開されている。
関連論文リスト
- SERE: Similarity-based Expert Re-routing for Efficient Batch Decoding in MoE Models [19.56443760368644]
類似性に基づくSERE(Expert Re-routing method for Efficient batch decoding in MoE model)を提案する。
SEREは、セカンダリエキスパートから最もよく似たプライマリエキスパートにトークンを再ルートすることで、アクティブエキスパートの数を動的に削減する。
SEREは、最小品質の損失で最大2.0倍のスピードアップを実現し、コスト効率とレイテンシに敏感な大規模なMoEデプロイメントのための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2026-02-07T16:51:16Z) - Dynamic Expert Sharing: Decoupling Memory from Parallelism in Mixture-of-Experts Diffusion LLMs [22.399470395813577]
Dynamic Expert Sharing (DES) は、MoE最適化をトークン中心のプルーニングからシーケンシャルレベルのコアセット選択に移行する新しいテクニックである。
DESは、独自の専門家アクティベーションを55%以上削減し、レイテンシを最大38%削減し、バニラ精度の99%を維持している。
論文 参考訳(メタデータ) (2026-01-31T20:01:47Z) - MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder [59.89996751196727]
スパースオートエンコーダ(SAE)は、大規模な言語モデルを解釈するための強力なツールとして登場した。
SAEの隠蔽層は、空間的制約を満たすために高い次元性を持ち、結果として禁止的なトレーニングと推論コストをもたらす。
近年のMixture of Experts (MoE) アプローチは、SAEsによってゲートアクティベーションを持つより狭い専門家ネットワークにこの問題に対処しようとしている。
本稿では,(1)専門化を促進するために意味的に重み付けされた専門家サブセットを同時に関与する複数の専門家活性化,(2)適応的な高周波スケーリングによって多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T22:19:34Z) - Ban&Pick: Ehancing Performance and Efficiency of MoE-LLMs via Smarter Routing [36.625445642399136]
Ban&Pickは、よりスマートなルーティングのためのポストトレーニング、プラグイン・アンド・プレイ戦略である。
パフォーマンスに大きく影響した重要な専門家を発見し、強化する。
トレーニングやアーキテクチャの変更なしに、無償のパフォーマンス向上と推論アクセラレーションを提供する。
論文 参考訳(メタデータ) (2025-09-08T05:38:10Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Diffusion for Natural Image Matting [88.58577778234036]
DiffMatteは、画像マッチングの課題を克服するために設計されたソリューションである。
まず、DiffMatteはデコーダを複雑な結合されたマッティングネットワーク設計から切り離し、拡散プロセスのイテレーションで1つの軽量デコーダだけを含む。
第2に、均一な時間間隔を持つ自己整合トレーニング戦略を採用し、時間領域全体にわたるトレーニングと推論の間に一貫したノイズサンプリングを確保する。
論文 参考訳(メタデータ) (2023-12-10T15:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。