論文の概要: SERE: Similarity-based Expert Re-routing for Efficient Batch Decoding in MoE Models
- arxiv url: http://arxiv.org/abs/2602.07616v1
- Date: Sat, 07 Feb 2026 16:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.723642
- Title: SERE: Similarity-based Expert Re-routing for Efficient Batch Decoding in MoE Models
- Title(参考訳): SERE: MoEモデルにおける効率的なバッチデコーディングのための類似性に基づくエキスパート再ルーティング
- Authors: Juntong Wu, Jialiang Cheng, Fuyu Lv, Ou Dan, Li Yuan,
- Abstract要約: 類似性に基づくSERE(Expert Re-routing method for Efficient batch decoding in MoE model)を提案する。
SEREは、セカンダリエキスパートから最もよく似たプライマリエキスパートにトークンを再ルートすることで、アクティブエキスパートの数を動的に削減する。
SEREは、最小品質の損失で最大2.0倍のスピードアップを実現し、コスト効率とレイテンシに敏感な大規模なMoEデプロイメントのための実用的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 19.56443760368644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures employ sparse activation to deliver faster training and inference with higher accuracy than dense LLMs. However, in production serving, MoE models require batch inference to optimize hardware efficiency, which may cause excessive expert activation and thus slow the memory-bound decoding stage. To address the fundamental tension between batch decoding and expert sparsity, we present SERE, a Similarity-based Expert Re-routing method for Efficient batch decoding in MoE models. SERE dynamically reduces the number of active experts in an input-aware manner by re-routing tokens from secondary experts to their most similar primary counterparts. It also leverages similarity patterns to identify and preserve critical experts, thereby preventing capability loss. Notably, SERE avoids static expert pruning or merging, instead enabling dynamic expert skipping based on batch-level expert redundancy. Additionally, we provide an efficient custom CUDA kernel for SERE, enabling plug-and-play use in vLLM with only a single-line code change. Extensive experiments on various complex reasoning benchmarks demonstrate that SERE achieves up to 2.0x speedup with minimal quality loss, providing a practical solution for cost-efficient and latency-sensitive large-scale MoE deployment. Code implementation of SERE can be found in https://github.com/JL-Cheng/SERE.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、密集したLLMよりも高速なトレーニングと推論を実現するためにスパースアクティベーションを使用している。
しかし、本番環境では、MoEモデルはハードウェア効率を最適化するためにバッチ推論を必要とするため、過剰な専門家のアクティベーションを引き起こし、メモリバウンド復号ステージを遅くする可能性がある。
バッチデコーディングと専門家の疎結合の基本的な緊張に対処するため,SEREという類似性に基づく,MoEモデルにおける効率的なバッチデコーディングのためのエキスパートリルーティング手法を提案する。
SEREは、セカンダリエキスパートから最もよく似たプライマリエキスパートへのトークンの再ルーティングによって、入力対応の方法でアクティブエキスパートの数を動的に削減する。
また、類似パターンを利用して重要な専門家を特定し保存し、能力喪失を防ぐ。
特に、SEREは静的なエキスパートのプルーニングやマージを避け、代わりにバッチレベルのエキスパートの冗長性に基づいた動的エキスパートのスキップを可能にする。
さらに、SERE用の効率的なカスタムCUDAカーネルを提供し、単一の行コードの変更だけで、vLLMでプラグインとプレイの使用を可能にする。
様々な複雑な推論ベンチマークに関する大規模な実験は、SEREが最小品質の損失で最大2.0倍のスピードアップを達成し、コスト効率とレイテンシに敏感な大規模なMoEデプロイメントのための実用的なソリューションを提供することを示している。
SEREのコード実装はhttps://github.com/JL-Cheng/SEREで確認できる。
関連論文リスト
- Dynamic Expert Sharing: Decoupling Memory from Parallelism in Mixture-of-Experts Diffusion LLMs [22.399470395813577]
Dynamic Expert Sharing (DES) は、MoE最適化をトークン中心のプルーニングからシーケンシャルレベルのコアセット選択に移行する新しいテクニックである。
DESは、独自の専門家アクティベーションを55%以上削減し、レイテンシを最大38%削減し、バニラ精度の99%を維持している。
論文 参考訳(メタデータ) (2026-01-31T20:01:47Z) - Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder [59.89996751196727]
スパースオートエンコーダ(SAE)は、大規模な言語モデルを解釈するための強力なツールとして登場した。
SAEの隠蔽層は、空間的制約を満たすために高い次元性を持ち、結果として禁止的なトレーニングと推論コストをもたらす。
近年のMixture of Experts (MoE) アプローチは、SAEsによってゲートアクティベーションを持つより狭い専門家ネットワークにこの問題に対処しようとしている。
本稿では,(1)専門化を促進するために意味的に重み付けされた専門家サブセットを同時に関与する複数の専門家活性化,(2)適応的な高周波スケーリングによって多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T22:19:34Z) - Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models [45.691230716687365]
Mixture-of-Experts (MoE) は、推論中に専門家がわずかに活性化された大きな言語モデルの効率的なスケーリングを可能にする。
多くのシステムでは,専門家のサブセットを高速メモリにキャッシュする*専門家オフロード*を導入している。
各層にMoEを適用し、共有専門家を使用しないモデルは、最も高い局所的なルーティング一貫性を示す。
論文 参考訳(メタデータ) (2025-05-21T22:13:09Z) - Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。
我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文 参考訳(メタデータ) (2025-03-11T14:15:01Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Query Encoder Distillation via Embedding Alignment is a Strong Baseline
Method to Boost Dense Retriever Online Efficiency [4.254906060165999]
2層のBERTベースのクエリエンコーダであっても、BEIRベンチマークでは完全なDEパフォーマンスの92.5%を維持可能であることを示す。
私たちの発見が、メソッドの複雑さとパフォーマンスの改善の間のトレードオフを再評価することを、コミュニティに促すことを願っています。
論文 参考訳(メタデータ) (2023-06-05T06:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。