論文の概要: Dynamic Expert Quantization for Scalable Mixture-of-Experts Inference
- arxiv url: http://arxiv.org/abs/2511.15015v1
- Date: Wed, 19 Nov 2025 01:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.583966
- Title: Dynamic Expert Quantization for Scalable Mixture-of-Experts Inference
- Title(参考訳): スケーラブル混合スペクトル推論のための動的エキスパート量子化
- Authors: Kexin Chu, Dawei Xiang, Zixu Shen, Yiwei Yang, Zecheng Liu, Wei Zhang,
- Abstract要約: 我々は、専門家の精度を第一級、動的に管理されるリソースとして扱うランタイムシステムDynaExqを提案する。
我々は,DynaExqが5090とA6000のGPU上で大きなLLMをデプロイし,静的な低精度ベースラインに対して最大4.03ポイントの精度向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 2.649774320778185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models scale LLM capacity efficiently, but deployment on consumer GPUs is limited by the large memory footprint of inactive experts. Static post-training quantization reduces storage costs but cannot adapt to shifting activation patterns, causing accuracy loss under aggressive compression. So we present DynaExq, a runtime system that treats expert precision as a first-class, dynamically managed resource. DynaExq combines (1) a hotness-aware precision controller that continuously aligns expert bit-widths with long-term activation statistics, (2) a fully asynchronous precision-switching pipeline that overlaps promotion and demotion with MoE computation, and (3) a fragmentation-free memory pooling mechanism that supports hybrid-precision experts with deterministic allocation. Together, these components enable stable, non-blocking precision transitions under strict HBM budgets. Across Qwen3-30B and Qwen3-80B MoE models and six representative benchmarks, DynaExq deploys large LLMs on single RTX 5090 and A6000 GPUs and improves accuracy by up to 4.03 points over static low-precision baselines. The results show that adaptive, workload-aware quantization is an effective strategy for memory-constrained MoE serving.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルはLLMのキャパシティを効率的にスケールアップするが、コンシューマGPUへのデプロイメントは、アクティブでない専門家の大規模なメモリフットプリントによって制限される。
静的後量子化は、ストレージコストを削減するが、シフトするアクティベーションパターンに適応できず、アグレッシブな圧縮の下で精度の低下を引き起こす。
そこで我々は、専門家の精度を第一級、動的に管理されるリソースとして扱うランタイムシステムDynaExqを紹介した。
DynaExqは,(1)エキスパートビット幅を長期のアクティベーション統計と連続的に一致させるホットネス対応の高精度コントローラ,(2)MoE計算とプロモーションとデモーションの重なり合う完全非同期の精度スイッチングパイプライン,(3)決定論的アロケーションを持つハイブリッド精度専門家をサポートするフラグメンテーションフリーメモリプーリング機構を組み合わせる。
これらのコンポーネントは、厳密なHBM予算の下で安定でノンブロッキングの精度遷移を可能にする。
Qwen3-30BとQwen3-80B MoEモデルと6つの代表的なベンチマークで、DynaExqは単一のRTX 5090とA6000 GPU上に大きなLLMをデプロイし、静的な低精度ベースラインよりも最大4.03ポイント精度を向上させる。
その結果、適応型ワークロード対応量子化は、メモリ制約型MoEサービスに有効な戦略であることが示された。
関連論文リスト
- MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - FlexQuant: A Flexible and Efficient Dynamic Precision Switching Framework for LLM Quantization [19.12288373558071]
推論速度と精度のトレードオフを最適化する動的精度スイッチングフレームワークFlexQuantを提案する。
我々はFlexQuantが様々な言語タスクで1.3倍のエンドツーエンドのスピードアップを達成し、精度を損なうことを示す。
論文 参考訳(メタデータ) (2025-05-21T07:42:53Z) - Quaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis [9.884521812433661]
Quaffは、大規模言語モデルのための量子化されたパラメータ効率の微調整フレームワークである。
軽量な操作を使用して、排他的な不変チャネルを抑える。
1.73倍のレイテンシ削減を実現し、30パーセントのメモリ節約を実現している。
論文 参考訳(メタデータ) (2025-05-20T07:19:36Z) - D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。
メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。
D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-04-17T05:37:35Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。