論文の概要: Efficient Quantization of Mixture-of-Experts with Theoretical Generalization Guarantees
- arxiv url: http://arxiv.org/abs/2604.06515v1
- Date: Tue, 07 Apr 2026 23:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.266409
- Title: Efficient Quantization of Mixture-of-Experts with Theoretical Generalization Guarantees
- Title(参考訳): 理論一般化保証付き混合実験の効率的な量子化
- Authors: Mohammed Nowaz Rabbani Chowdhury, Kaoutar El Maghraoui, Hsinyu Tsai, Naigang Wang, Geoffrey W. Burr, Liu Liu, Meng Wang,
- Abstract要約: Sparse Mixture-of-Experts (MoE) は、入力毎に少数の専門家のみを活性化することにより、言語とビジョンモデルのスケーリングを効率的に行うことができる。
MoEは推論中にかなりのメモリオーバーヘッドを発生させる。
本稿では,学習中のルータl2ノルムの変化に基づいて,各専門家にビット幅を割り当てる,理論的に基礎付けられた混合精度戦略を提案する。
- 参考スコア(独自算出の注目度): 13.67631667766697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture-of-Experts (MoE) allows scaling of language and vision models efficiently by activating only a small subset of experts per input. While this reduces computation, the large number of parameters still incurs substantial memory overhead during inference. Post-training quantization has been explored to address this issue. Because uniform quantization suffers from significant accuracy loss at low bit-widths, mixed-precision methods have been recently explored; however, they often require substantial computation for bit-width allocation and overlook the varying sensitivity of model performance to the quantization of different experts. We propose a theoretically grounded expert-wise mixed precision strategy that assigns bit-width to each expert primarily based on their change in routers l2 norm during training. Experts with smaller changes are shown to capture less frequent but critical features, and model performance is more sensitive to the quantization of these experts, thus requiring higher precision. Furthermore, to avoid allocating experts to lower precision that inject high quantization noise, experts with large maximum intra-neuron variance are also allocated higher precision. Experiments on large-scale MoE models, including Switch Transformer and Mixtral, show that our method achieves higher accuracy than existing approaches, while also reducing inference cost and incurring only negligible overhead for bit-width assignment.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE) は、入力毎に少数の専門家のみを活性化することにより、言語とビジョンモデルのスケーリングを効率的に行うことができる。
これは計算を減少させるが、多くのパラメータは推論中にかなりのメモリオーバーヘッドを発生させる。
トレーニング後の量子化はこの問題に対処するために検討されている。
均一量子化は低ビット幅での精度の低下に悩まされるため、近年、混合精度法が研究されているが、ビット幅割り当てにはかなりの計算が必要であり、異なる専門家の量子化に対するモデル性能の様々な感度を見落としていることが多い。
本稿では,学習中のルータl2ノルムの変化に基づいて,各専門家にビット幅を割り当てる理論的根拠付き混合精度戦略を提案する。
変更の少ない専門家は、頻度が低いが重要な特徴を捉えることが示され、モデルパフォーマンスはこれらの専門家の量子化に敏感であり、より高い精度を必要とする。
さらに、高量子化ノイズを注入する精度を下げるために専門家を割り当てることを避けるために、大きなニューロン内分散を持つ専門家も高い精度で割り当てられる。
Switch Transformer や Mixtral などの大規模 MoE モデルを用いた実験により,提案手法は既存の手法よりも精度が高く,推論コストも低減し,ビット幅割当の無視可能なオーバーヘッドしか生じないことがわかった。
関連論文リスト
- Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization [3.6899131505284455]
学習後量子化(PTQ)は視覚言語モデル(VLM)の計算およびメモリオーバーヘッドを緩和する有効な手法として登場した。
我々は、VLMの量子化のための混合専門家によるトークン対応適応誤差補償である textbfQuant Experts (QE) を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:47:48Z) - A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - MoPEQ: Mixture of Mixed Precision Quantized Experts [0.1262792599323502]
混合精度量子化(Mixed Precision Quantization)は、モデル内の層感度と重要性に基づいて、LLM/VLMの異なる層に異なる精度を割り当てる。
本稿では,各専門家に最適なビット幅を割り当てるポストトレーニング量子化アルゴリズムMoPEQを提案する。
本手法は,ヘッセントレース近似を用いて各専門家の感度を解析することにより,精度とモデルサイズをバランスさせる。
論文 参考訳(メタデータ) (2025-09-02T17:04:59Z) - Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。
本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。
PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文 参考訳(メタデータ) (2025-08-27T15:59:36Z) - MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance [10.817003682434425]
Mixture-of-Experts (MoE) Large Language Model (LLM) は動的ルーティングとスパースアクティベーションを利用して効率とスケーラビリティを向上させる。
後トレーニング量子化(PTQ)は、MoEモデルに適用した場合、精度が著しく低下し、性能が低下する。
本稿では,MoEのスパースと動的特性が量子化に与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-02T08:51:55Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。