論文の概要: The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference
- arxiv url: http://arxiv.org/abs/2603.08960v1
- Date: Mon, 09 Mar 2026 21:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.843678
- Title: The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference
- Title(参考訳): $qs$不等式:推論におけるミックス・オブ・サーキットの2倍のペナルティの定量化
- Authors: Vignesh Adhinarayanan, Nuwan Jayasena,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、低トレーニングのFLOPにおいて高い品質を提供するが、この効率はしばしば推論時に消える。
復号化時に構造的にMoEアーキテクチャに不利な二重ペナルティを識別する。
我々は、MoEが品質整合密度モデルに対して構造的に不利なときを識別する予測的基準である$qs$不等式(inequality)を導入する。
- 参考スコア(独自算出の注目度): 0.8986240899504297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models deliver high quality at low training FLOPs, but this efficiency often vanishes at inference. We identify a double penalty that structurally disadvantages MoE architectures during decoding: first, expert routing fragments microbatches and reduces weight reuse; second, massive resident expert pools reduce high-bandwidth memory (HBM) headroom for the KV cache. This phenomenon, formalized as reuse fragmentation, pushes feed-forward networks (FFNs) into a bandwidth-bound regime, especially at long context lengths. We introduce the $qs$ inequality, a predictive criterion that identifies when MoE is structurally disadvantaged relative to a quality-matched dense model. This criterion unifies sparsity ($s$), the fraction of parameters activated per token, and the quality-equivalence factor ($q$), the size multiplier required for a dense model to match MoE performance. Our evaluation across frontier models including DeepSeek-V3, Qwen3-235B, Grok-1, and Switch-C demonstrates that this fragmentation is a general architectural phenomenon. For DeepSeek-V3 at 128k context, this results in a 4.5x throughput advantage for a quality-matched dense baseline. Crucially, massive architectures like Switch-C can become infeasible on cluster sizes where a quality-matched dense model remains viable. Our results suggest that training-time FLOP efficiency is an incomplete proxy for inference-time performance in long-context serving. They also indicate that MoE may be best viewed as a training-time optimization, with distillation into dense models as a possible path toward inference-efficient deployment.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、低トレーニングのFLOPにおいて高い品質を提供するが、この効率はしばしば推論時に消える。
まず、エキスパートルーティングフラグメントのマイクロバッチ化と重量再利用の削減、そして第2に、大規模な常駐エキスパートプールは、KVキャッシュのハイバンド幅メモリ(HBM)ヘッドルームを削減します。
この現象は再利用の断片化として形式化され、フィードフォワードネットワーク(FFN)を特に長いコンテキスト長で帯域幅に制限された状態に押し込む。
我々は、MoEが品質整合密度モデルに対して構造的に不利なときを識別する予測的基準である$qs$不等式(inequality)を導入する。
この基準は、スパシティ($s$)、トークンごとにアクティベートされるパラメータの分数、およびMoEパフォーマンスに適合する密度モデルに必要な品質等価係数($q$)を統一する。
DeepSeek-V3, Qwen3-235B, Grok-1, Switch-C などのフロンティアモデルによる評価は, このフラグメンテーションが一般的なアーキテクチャ現象であることを証明している。
DeepSeek-V3の128kコンテキストでは、これは品質にマッチした高密度ベースラインに対して4.5倍のスループットのメリットをもたらす。
重要なことに、Switch-Cのような大規模なアーキテクチャは、品質にマッチした高密度モデルが存続するクラスタサイズで実現不可能になる可能性がある。
この結果から, FLOP効率は長文処理における推論時間性能の不完全プロキシであることがわかった。
彼らはまた、MoEをトレーニング時間最適化とみなし、密度の高いモデルへの蒸留を推論効率の高い展開への道とみなすのが最善であることを示している。
関連論文リスト
- Mixture-of-Experts Models in Vision: Routing, Optimization, and Generalization [0.0]
画像分類設定におけるMoEの挙動について検討し、予測性能、専門家の活用、一般化に着目した。
我々は、CIFAR10データセット上の密度、SoftMoE、SparseMoE分類器を、同等のモデルキャパシティで比較する。
どちらのMoE変種も、正規化によるバランスの取れた専門家の利用を維持しながら、密度の高いベースラインよりもわずかに高い検証精度を達成する。
DenseとSparseMoEは、全てのモデルが同等の一般化性能を達成しているにもかかわらず、同様の曲率状態にあるのに対して、SoftMoEはこれらの指標によってよりシャープさを示す。
論文 参考訳(メタデータ) (2026-01-21T14:22:25Z) - Fragile Knowledge, Robust Instruction-Following: The Width Pruning Dichotomy in Llama-3.2 [0.0]
我々は,MAW誘導幅の刈り取りが選択フィルタとして機能し,行動アライメントを保ちつつパラメトリック知識を減少させることを示す。
プルーニングされた構成は、エネルギー消費(J/Token)を最大で23%削減するが、単一要求レイテンシで罰則が生じる。
論文 参考訳(メタデータ) (2025-12-27T18:09:57Z) - Breaking the MoE LLM Trilemma: Dynamic Expert Clustering with Structured Compression [14.086434595924716]
Mixture-of-Experts (MoE) Large Language Models (LLM) は負荷不均衡、パラメータの冗長性、通信オーバーヘッドのトリレンマに直面している。
動的専門家クラスタリングと構造化圧縮に基づいて統合されたフレームワークを導入し,これらの問題に協調的に対処する。
論文 参考訳(メタデータ) (2025-09-27T10:45:58Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Scaling Linear Attention with Sparse State Expansion [62.749291436866606]
トランスフォーマーアーキテクチャは、2次計算と線形メモリ成長による長期コンテキストシナリオに苦慮している。
より効率的な文脈圧縮を実現するための2つの重要な革新を提案する。
まず、情報分類として状態更新を概念化し、線形注意のための行スパース更新定式化を導入する。
次に、スパースフレームワーク内にスパース状態拡張(SSE)を示し、コンテキスト状態を複数のパーティションに拡張する。
論文 参考訳(メタデータ) (2025-07-22T13:27:31Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。