論文の概要: MoPEQ: Mixture of Mixed Precision Quantized Experts
- arxiv url: http://arxiv.org/abs/2509.02512v1
- Date: Tue, 02 Sep 2025 17:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.116882
- Title: MoPEQ: Mixture of Mixed Precision Quantized Experts
- Title(参考訳): MoPEQ: 混合精密量子化エキスパートの混合
- Authors: Krishna Teja Chitty-Venkata, Jie Ye, Murali Emani,
- Abstract要約: 混合精度量子化(Mixed Precision Quantization)は、モデル内の層感度と重要性に基づいて、LLM/VLMの異なる層に異なる精度を割り当てる。
本稿では,各専門家に最適なビット幅を割り当てるポストトレーニング量子化アルゴリズムMoPEQを提案する。
本手法は,ヘッセントレース近似を用いて各専門家の感度を解析することにより,精度とモデルサイズをバランスさせる。
- 参考スコア(独自算出の注目度): 0.1262792599323502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language and Vision Models using a Mixture-of-Experts (MoE) architecture pose significant challenges for deployment due to their computational and memory demands. Mixed Precision Quantization assigns different precisions to different layers of an LLM/VLM based on layer sensitivity and importance within the model. In this work, we propose a Post Training Quantization algorithm, MoPEQ, that assigns optimal bit width to each expert. Our method balances accuracy and model size by analyzing each expert's sensitivity using Hessian trace approximation instead of relying on the activation frequency of the expert. This per-expert granularity approach clusters similar experts to maintain model performance while reducing memory requirements. The experimental results on VLMEvalKit benchmark datasets using State-of-the-art VLMs Deepseek-VL2 -tiny, -small, -base, and MolmoE models demonstrate that our mixed precision quantized MoEs achieve competitive accuracy with substantial improvements in memory footprint compared to uniform-precision baseline methods. We perform a comprehensive study to analyze the impact of expert activation frequency and sensitivity using Hessian trace approximation at both layer-wise and model-wide expert precision allocation of 2, 3, and 4 bits to provide a thorough understanding of mixed precision quantization of VLM-MoEs.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャを使用した大規模言語とビジョンモデルは、その計算とメモリ要求のために、デプロイメントに重大な課題を生じさせる。
混合精度量子化(Mixed Precision Quantization)は、モデル内の層感度と重要性に基づいて、LLM/VLMの異なる層に異なる精度を割り当てる。
本研究では,各専門家に最適なビット幅を割り当てるポストトレーニング量子化アルゴリズムMoPEQを提案する。
本手法は,専門家のアクティベーション周波数に依存するのではなく,ヘッセントレース近似を用いて各専門家の感度を解析することにより,精度とモデルサイズのバランスをとる。
この専門家ごとの粒度は、メモリ要件を減らしながらモデルパフォーマンスを維持するために、クラスタと同様のエキスパートにアプローチする。
The experimental results on VLMEvalKit benchmark datasets using State-of-the-the-art VLMs Deepseek-VL2 -tiny, -small, -base, MolmoE model on our mixed precision Quantized MoEs achieve competitive accuracy with significant improve in memory footprint than uniform-precision baseline method。
我々は,VLM-MoEの混合精度量子化について,2,3,4ビットのヘシアントレース近似を用いて,専門家活性化周波数と感度の影響を網羅的に解析する。
関連論文リスト
- DP-LLM: Runtime Model Adaptation with Dynamic Layer-wise Precision Assignment [4.048600072986694]
DP-LLMは入力値に基づいて各層に動的に精度を割り当てる機構である。
DP-LLMは,従来の手法よりも優れた性能・遅延トレードオフを実現することを示す。
論文 参考訳(メタデータ) (2025-08-08T05:57:04Z) - MxMoE: Mixed-precision Quantization for MoE with Accuracy and Performance Co-Design [41.7649957078564]
MxMoEは、Mixture-of-Experts (MoE)モデルの混合精度最適化フレームワークである。
MxMoEはパラメータ感度、エキスパートアクティベーションダイナミクス、ハードウェアリソースによって定義された設計空間をナビゲートし、効率的な混合精度構成を導出する。
論文 参考訳(メタデータ) (2025-05-09T05:32:21Z) - MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance [10.817003682434425]
Mixture-of-Experts (MoE) Large Language Model (LLM) は動的ルーティングとスパースアクティベーションを利用して効率とスケーラビリティを向上させる。
後トレーニング量子化(PTQ)は、MoEモデルに適用した場合、精度が著しく低下し、性能が低下する。
本稿では,MoEのスパースと動的特性が量子化に与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-02T08:51:55Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。
実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文 参考訳(メタデータ) (2023-06-08T02:18:58Z) - Mixed Precision Post Training Quantization of Neural Networks with
Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。
我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文 参考訳(メタデータ) (2023-02-02T19:30:00Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。