論文の概要: Opportunistic Expert Activation: Batch-Aware Expert Routing for Faster Decode Without Retraining
- arxiv url: http://arxiv.org/abs/2511.02237v1
- Date: Tue, 04 Nov 2025 04:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.800432
- Title: Opportunistic Expert Activation: Batch-Aware Expert Routing for Faster Decode Without Retraining
- Title(参考訳): 機会論的エキスパートアクティベーション - トレーニングなしでのより高速なデコードのためのバッチアウェアエキスパートルーティング
- Authors: Costin-Andrei Oncescu, Qingyang Wu, Wai Tong Chung, Robert Wu, Bryan Gopal, Junxiong Wang, Tri Dao, Ben Athiwaratkun,
- Abstract要約: トークンから専門家へのマッピングを動的に再ルーティングするフレームワークを導入し、MoEレイテンシを低くする。
バッチサイズが16ドルであるQwen3-30BおよびQwen3-235Bモデルについて評価を行った。
- 参考スコア(独自算出の注目度): 34.97996720624093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An increasing number of LLMs employ Mixture-of-Experts (MoE) architectures where the feed-forward layer is replaced by a pool of experts and each token only activates a small subset of them. During autoregressive generation, these models often enter a memory-bound regime even for moderate batch sizes because the average expert load grows more slowly than in an equivalent dense feedforward layer. Consequently, MoE latency is governed by the number of activated experts. We introduce a framework for dynamically re-routing token-to-expert mapping to lower this number (and thus, the decode latency) while preserving a comparable quality. Our best results use a batch-aware routing that works by having tokens piggyback experts that have already been loaded into memory due to being crucial to other tokens within the same batch. Empirically, we evaluate our method on the Qwen3-30B and Qwen3-235B models with a batch size of $16$. Without any statistically significant loss in accuracy, our approach achieves latency reductions of $39\%$ and $15\%$ in the MoE layer decode latency, respectively.
- Abstract(参考訳): 多くのLLMはMixture-of-Experts (MoE)アーキテクチャを採用しており、フィードフォワード層は専門家のプールに置き換えられ、各トークンはそれらの小さなサブセットのみを起動する。
自己回帰生成中、これらのモデルは、平均的な専門家負荷が同等の高密度フィードフォワード層よりも遅く成長するため、適度なバッチサイズであってもメモリバウンド状態に入ることが多い。
その結果、MoEレイテンシはアクティベートされた専門家の数によって管理される。
トークンからエキスパートへのマッピングを動的に再ルーティングするフレームワークを導入し、同じ品質を維持しながら、この数を減らし(従ってデコードレイテンシ)ます。
私たちのベストな結果にはバッチ対応のルーティングを使用します。これは、同じバッチ内で他のトークンに不可欠なため、すでにメモリにロードされているトークンのピギーバック専門家が動作します。
実験により,バッチサイズが16ドルであるQwen3-30BおよびQwen3-235Bモデルについて,本手法の評価を行った。
統計的に有意な精度の損失を伴わないため,本手法では,MoE層デコード遅延において,それぞれ3,9 %$と15 %$の遅延低減を実現している。
関連論文リスト
- From Tokens to Layers: Redefining Stall-Free Scheduling for LLM Serving with Layered Prefill [8.04085002818041]
大規模言語モデル(LLM)は、TTFT(Time-to-first-token)とTBT(Time-between-token)の両方に対して、厳密なサービスレベル目標を満たす必要がある。
現代のサービスシステムでは、チャンクプリフィルのようなストールフリーなスケジューリング技術を採用している。
本稿では,トランスフォーマ層群を主スケジューリング単位として扱う新しいスケジューリングパラダイムであるLayered Prefillを提案する。
論文 参考訳(メタデータ) (2025-10-09T10:41:35Z) - From Score Distributions to Balance: Plug-and-Play Mixture-of-Experts Routing [52.01745035243826]
Mixture-of-Experts (MoE)モデルは、各トークンを専門家のサブセットにルーティングすることで、パラメータキャパシティをスケールすることができる。
条件付きルーティングは、推論メモリの負荷をシフトし、デバイスごとに専門家の数を制限する。
本稿では,精度を保ちながら負荷のバランスをとるプラグイン・アンド・プレイ型推論時ルーティングアルゴリズムLASERを提案する。
論文 参考訳(メタデータ) (2025-09-29T16:29:17Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - CMoE: Converting Mixture-of-Experts from Dense to Accelerate LLM Inference [33.871080938643566]
CMoEは、高密度言語モデルをトレーニングなしで、ミックス・オブ・エキスパート(MoE)に迅速に変換するフレームワークである。
実験により、75%の活性化比で、パープレキシティの点で顕著な結果が得られることが示された。
パラメータの25%をアクティベートするCMoE構成は、追加のトレーニングなしで使用可能なパープレキシティを保ちながら、エンドツーエンドのレイテンシを1.5倍削減する。
論文 参考訳(メタデータ) (2025-02-06T14:05:30Z) - SuffixDecoding: Extreme Speculative Decoding for Emerging AI Applications [13.948608558319307]
投機的復号化は、大規模言語モデル(LLM)推論の遅延を低減するために広く採用されている。
エージェントフレームワークは繰り返しの推論要求を送信し、その結果、長く予測可能な計算結果が得られる。
本稿では,効率的な接尾辞木を用いて長いトークン列をキャッシュする新しい手法であるemphSuffixDecodingを紹介する。
論文 参考訳(メタデータ) (2024-11-07T18:49:33Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Prompt-prompted Adaptive Structured Pruning for Efficient LLM Generation [31.657608562937543]
本稿では,GRIFFINについて紹介する。GRIFFINはトレーニング不要かつ校正不要な手法で,シーケンスレベルで独自のFFエキスパートを選択して効率よく生成する。
GRIFFINは、様々な分類タスクと生成タスクをほとんどあるいは全く分解することなく、オリジナルのモデルの性能を維持している。
論文 参考訳(メタデータ) (2024-04-01T17:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。