論文の概要: Opportunistic Expert Activation: Batch-Aware Expert Routing for Faster Decode Without Retraining
- arxiv url: http://arxiv.org/abs/2511.02237v1
- Date: Tue, 04 Nov 2025 04:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.800432
- Title: Opportunistic Expert Activation: Batch-Aware Expert Routing for Faster Decode Without Retraining
- Title(参考訳): 機会論的エキスパートアクティベーション - トレーニングなしでのより高速なデコードのためのバッチアウェアエキスパートルーティング
- Authors: Costin-Andrei Oncescu, Qingyang Wu, Wai Tong Chung, Robert Wu, Bryan Gopal, Junxiong Wang, Tri Dao, Ben Athiwaratkun,
- Abstract要約: トークンから専門家へのマッピングを動的に再ルーティングするフレームワークを導入し、MoEレイテンシを低くする。
バッチサイズが16ドルであるQwen3-30BおよびQwen3-235Bモデルについて評価を行った。
- 参考スコア(独自算出の注目度): 34.97996720624093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An increasing number of LLMs employ Mixture-of-Experts (MoE) architectures where the feed-forward layer is replaced by a pool of experts and each token only activates a small subset of them. During autoregressive generation, these models often enter a memory-bound regime even for moderate batch sizes because the average expert load grows more slowly than in an equivalent dense feedforward layer. Consequently, MoE latency is governed by the number of activated experts. We introduce a framework for dynamically re-routing token-to-expert mapping to lower this number (and thus, the decode latency) while preserving a comparable quality. Our best results use a batch-aware routing that works by having tokens piggyback experts that have already been loaded into memory due to being crucial to other tokens within the same batch. Empirically, we evaluate our method on the Qwen3-30B and Qwen3-235B models with a batch size of $16$. Without any statistically significant loss in accuracy, our approach achieves latency reductions of $39\%$ and $15\%$ in the MoE layer decode latency, respectively.
- Abstract(参考訳): 多くのLLMはMixture-of-Experts (MoE)アーキテクチャを採用しており、フィードフォワード層は専門家のプールに置き換えられ、各トークンはそれらの小さなサブセットのみを起動する。
自己回帰生成中、これらのモデルは、平均的な専門家負荷が同等の高密度フィードフォワード層よりも遅く成長するため、適度なバッチサイズであってもメモリバウンド状態に入ることが多い。
その結果、MoEレイテンシはアクティベートされた専門家の数によって管理される。
トークンからエキスパートへのマッピングを動的に再ルーティングするフレームワークを導入し、同じ品質を維持しながら、この数を減らし(従ってデコードレイテンシ)ます。
私たちのベストな結果にはバッチ対応のルーティングを使用します。これは、同じバッチ内で他のトークンに不可欠なため、すでにメモリにロードされているトークンのピギーバック専門家が動作します。
実験により,バッチサイズが16ドルであるQwen3-30BおよびQwen3-235Bモデルについて,本手法の評価を行った。
統計的に有意な精度の損失を伴わないため,本手法では,MoE層デコード遅延において,それぞれ3,9 %$と15 %$の遅延低減を実現している。
関連論文リスト
- MoE-Spec: Expert Budgeting for Efficient Speculative Decoding [4.064682810747041]
本稿では,メモリコストから投機深度を分離する訓練不要な専門家予算化手法を提案する。
複数のモデルスケールとデータセットにわたる実験により、この手法は最先端の投機的デコードベースラインよりも10-30%高いスループットが得られることが示された。
論文 参考訳(メタデータ) (2026-02-17T22:02:36Z) - SERE: Similarity-based Expert Re-routing for Efficient Batch Decoding in MoE Models [19.56443760368644]
類似性に基づくSERE(Expert Re-routing method for Efficient batch decoding in MoE model)を提案する。
SEREは、セカンダリエキスパートから最もよく似たプライマリエキスパートにトークンを再ルートすることで、アクティブエキスパートの数を動的に削減する。
SEREは、最小品質の損失で最大2.0倍のスピードアップを実現し、コスト効率とレイテンシに敏感な大規模なMoEデプロイメントのための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2026-02-07T16:51:16Z) - Remoe: Towards Efficient and Low-Cost MoE Inference in Serverless Computing [29.98726492279776]
Mixture-of-Experts (MoE) は大規模言語モデルにおいて支配的なアーキテクチャとなっている。
MoEsはメモリ集約型パラメータキャッシングによって高い推論コストを発生させる。
サーバーレスコンピューティングに適した異種MOE推論システムであるRemoeを提案する。
論文 参考訳(メタデータ) (2025-12-21T10:27:50Z) - Behavior-Equivalent Token: Single-Token Replacement for Long Prompts in LLMs [55.827877498548965]
単一プロンプト固有の振る舞い等価トークン([BE])を学習する軽量なトレーニングフレームワークを提案する。
フレームワークはまず[BE]に、元のシステムプロンプトの自然言語内容を再構成してエンコードし、その後、プロンプトの下流の振る舞いをこの単一のトークンに蒸留するように訓練する。
3つのデータセットに対する実証的な評価は、1つの[BE]トークンが3000倍の高速化を実現し、元のシステムの下流性能の約98%を維持していることを示している。
論文 参考訳(メタデータ) (2025-11-28T15:22:52Z) - MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - From Tokens to Layers: Redefining Stall-Free Scheduling for LLM Serving with Layered Prefill [8.04085002818041]
大規模言語モデル(LLM)は、TTFT(Time-to-first-token)とTBT(Time-between-token)の両方に対して、厳密なサービスレベル目標を満たす必要がある。
現代のサービスシステムでは、チャンクプリフィルのようなストールフリーなスケジューリング技術を採用している。
本稿では,トランスフォーマ層群を主スケジューリング単位として扱う新しいスケジューリングパラダイムであるLayered Prefillを提案する。
論文 参考訳(メタデータ) (2025-10-09T10:41:35Z) - From Score Distributions to Balance: Plug-and-Play Mixture-of-Experts Routing [52.01745035243826]
Mixture-of-Experts (MoE)モデルは、各トークンを専門家のサブセットにルーティングすることで、パラメータキャパシティをスケールすることができる。
条件付きルーティングは、推論メモリの負荷をシフトし、デバイスごとに専門家の数を制限する。
本稿では,精度を保ちながら負荷のバランスをとるプラグイン・アンド・プレイ型推論時ルーティングアルゴリズムLASERを提案する。
論文 参考訳(メタデータ) (2025-09-29T16:29:17Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - CMoE: Converting Mixture-of-Experts from Dense to Accelerate LLM Inference [33.871080938643566]
CMoEは、高密度言語モデルをトレーニングなしで、ミックス・オブ・エキスパート(MoE)に迅速に変換するフレームワークである。
実験により、75%の活性化比で、パープレキシティの点で顕著な結果が得られることが示された。
パラメータの25%をアクティベートするCMoE構成は、追加のトレーニングなしで使用可能なパープレキシティを保ちながら、エンドツーエンドのレイテンシを1.5倍削減する。
論文 参考訳(メタデータ) (2025-02-06T14:05:30Z) - SuffixDecoding: Extreme Speculative Decoding for Emerging AI Applications [13.948608558319307]
投機的復号化は、大規模言語モデル(LLM)推論の遅延を低減するために広く採用されている。
エージェントフレームワークは繰り返しの推論要求を送信し、その結果、長く予測可能な計算結果が得られる。
本稿では,効率的な接尾辞木を用いて長いトークン列をキャッシュする新しい手法であるemphSuffixDecodingを紹介する。
論文 参考訳(メタデータ) (2024-11-07T18:49:33Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Prompt-prompted Adaptive Structured Pruning for Efficient LLM Generation [31.657608562937543]
本稿では,GRIFFINについて紹介する。GRIFFINはトレーニング不要かつ校正不要な手法で,シーケンスレベルで独自のFFエキスパートを選択して効率よく生成する。
GRIFFINは、様々な分類タスクと生成タスクをほとんどあるいは全く分解することなく、オリジナルのモデルの性能を維持している。
論文 参考訳(メタデータ) (2024-04-01T17:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。