論文の概要: MoQE: Improve Quantization Model performance via Mixture of Quantization Experts
- arxiv url: http://arxiv.org/abs/2508.09204v1
- Date: Sat, 09 Aug 2025 05:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.613465
- Title: MoQE: Improve Quantization Model performance via Mixture of Quantization Experts
- Title(参考訳): MoQE: 量子化エキスパートの混在による量子化モデルのパフォーマンス向上
- Authors: Jinhao Zhang, Yunquan Zhang, Boyang Zhang, Zeyu Liu, Daning Cheng,
- Abstract要約: Mixture of Quantization Experts(略称:MoQE)は、Mixture-of-Expertsアーキテクチャに基づく量子化推論フレームワークである。
MoQEは1つの完全精度モデルの複数の量子化変種を「量子化の専門家」として結合する
我々は,MQEがSOTA量子化モデルに匹敵する性能を達成できることを示す。
- 参考スコア(独自算出の注目度): 6.65644742247179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization method plays a crucial role in improving model efficiency and reducing deployment costs, enabling the widespread application of deep learning models on resource-constrained devices. However, the quantization process inevitably introduces accuracy degradation. In this paper, we propose Mixture of Quantization Experts( abbr. MoQE), a quantization inference framework based on the Mixture-of-Experts (MoE) architecture, aiming to jointly improve the performance of quantization models. MoQE combines multiple quantization variants of one full-precision model as specialized "quantization experts" and dynamically routes input data to the most suitable expert based on its characteristics. MoQE alleviates the performance degradation commonly seen in single quantization models through specialization quantization expert models. We design lightweight, structure-aware router models tailored for both CV and NLP tasks. Experimental evaluations on ResNet, LLaMA, and Qwen model families across benchmark datasets including ImageNet, WikiText, C4, and OpenWebText demonstrate that MoQE achieves performance comparable to SOTA quantization model, without incurring significant increases in inference latency.
- Abstract(参考訳): 量子化手法は、モデル効率の向上とデプロイメントコストの低減において重要な役割を担い、リソース制約のあるデバイスにディープラーニングモデルの広範な適用を可能にする。
しかし、量子化過程は必然的に精度劣化をもたらす。
本稿では,Mixture-of-Experts(MoE)アーキテクチャに基づく量子化推論フレームワークであるMixture of Quantization Experts(別名MoQE)を提案する。
MoQEは、1つの完全精度モデルの複数の量子化変種を特別な「量子化の専門家」として組み合わせ、その特性に基づいて入力データを最も適切な専門家に動的にルーティングする。
MoQEは、単一量子化モデルで一般的に見られる性能劣化を、特殊化量子化の専門家モデルによって緩和する。
CVおよびNLPタスクに適した軽量構造対応ルータモデルを設計する。
ImageNet、WikiText、C4、OpenWebTextを含むベンチマークデータセット間でのResNet、LLaMA、Qwenモデルファミリーに関する実験的評価は、MoQEが推論遅延の大幅な増加を招くことなく、SOTA量子化モデルに匹敵するパフォーマンスを達成することを示した。
関連論文リスト
- SiLQ: Simple Large Language Model Quantization-Aware Training [3.09578981466695]
大規模言語モデルは、推論時間遅延、モデルサイズ、エネルギー消費を減らすために定量化することができる。
妥当な時間で精度の損失を最小限に抑えた量子モデルを提供することが課題である。
ここでは、先行する量子化手法よりも優れた、単純でエンドツーエンドな量子化対応トレーニング手法を示す。
論文 参考訳(メタデータ) (2025-07-22T18:17:53Z) - MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance [10.817003682434425]
Mixture-of-Experts (MoE) Large Language Model (LLM) は動的ルーティングとスパースアクティベーションを利用して効率とスケーラビリティを向上させる。
後トレーニング量子化(PTQ)は、MoEモデルに適用した場合、精度が著しく低下し、性能が低下する。
本稿では,MoEのスパースと動的特性が量子化に与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-02T08:51:55Z) - MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness [8.021289706876606]
Mix-of-Experts (MoE) はLarge Language Models (LLM) のメインフォームとなった。
MoQaは、分布認識を備えたエキスパートレベルの混合精度ベース量子化である。
MoQaは2.746.44 PPLの減少と1.85%3.77%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-03-27T03:52:25Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Modular Quantization-Aware Training for 6D Object Pose Estimation [52.9436648014338]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。
本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。
MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文 参考訳(メタデータ) (2023-03-12T21:01:54Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。