論文の概要: An Empirical Study of Qwen3 Quantization
- arxiv url: http://arxiv.org/abs/2505.02214v1
- Date: Sun, 04 May 2025 18:43:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.488497
- Title: An Empirical Study of Qwen3 Quantization
- Title(参考訳): Qwen3量子化の実証的研究
- Authors: Xingyu Zheng, Yuye Li, Haoran Chu, Yue Feng, Xudong Ma, Jie Luo, Jinyang Guo, Haotong Qin, Michele Magno, Xianglong Liu,
- Abstract要約: 低ビット量子化は有望な解であるが、Qwen3の性能への影響は未解明のままである。
Qwen3に適用された5つの古典的ポストトレーニング量子化手法を,1ビットから8ビットまでのビット幅で厳格に評価する。
以上の結果から,Qwen3は適度なビット幅での競合性能を維持しながら,超低精度での言語タスクの顕著な劣化を経験していることが明らかとなった。
- 参考スコア(独自算出の注目度): 30.214896404069677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Qwen series has emerged as a leading family of open-source Large Language Models (LLMs), demonstrating remarkable capabilities in natural language understanding tasks. With the recent release of Qwen3, which exhibits superior performance across diverse benchmarks, there is growing interest in deploying these models efficiently in resource-constrained environments. Low-bit quantization presents a promising solution, yet its impact on Qwen3's performance remains underexplored. This study conducts a systematic evaluation of Qwen3's robustness under various quantization settings, aiming to uncover both opportunities and challenges in compressing this state-of-the-art model. We rigorously assess 5 existing classic post-training quantization techniques applied to Qwen3, spanning bit-widths from 1 to 8 bits, and evaluate their effectiveness across multiple datasets. Our findings reveal that while Qwen3 maintains competitive performance at moderate bit-widths, it experiences notable degradation in linguistic tasks under ultra-low precision, underscoring the persistent hurdles in LLM compression. These results emphasize the need for further research to mitigate performance loss in extreme quantization scenarios. We anticipate that this empirical analysis will provide actionable insights for advancing quantization methods tailored to Qwen3 and future LLMs, ultimately enhancing their practicality without compromising accuracy. Our project is released on https://github.com/Efficient-ML/Qwen3-Quantization and https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.
- Abstract(参考訳): QwenシリーズはオープンソースのLarge Language Models (LLMs) の主要なファミリーとして登場し、自然言語理解タスクにおいて顕著な能力を示している。
最近リリースされたQwen3は、様々なベンチマークで優れたパフォーマンスを示しており、リソース制約のある環境でこれらのモデルを効率的にデプロイすることへの関心が高まっている。
低ビット量子化は有望な解であるが、Qwen3の性能への影響は未解明のままである。
本研究では,様々な量子化条件下でQwen3のロバスト性を体系的に評価し,この最先端モデルを圧縮する際の機会と課題を明らかにすることを目的とする。
我々は、Qwen3に適用された既存の5つの古典的ポストトレーニング量子化手法を厳格に評価し、ビット幅を1ビットから8ビットに分散させ、その有効性を複数のデータセットで評価する。
以上の結果から,Qwen3は中程度のビット幅での競合性能を維持しながら,超低精度での言語タスクの顕著な劣化を経験し,LLM圧縮の持続的ハードルを浮き彫りにした。
これらの結果は、極端な量子化シナリオにおける性能損失を軽減するためのさらなる研究の必要性を強調している。
この経験的分析はQwen3と将来のLCMに合わせた量子化法を推し進めるための実用的な洞察を与え、最終的に精度を損なうことなく実用性を向上させることを期待する。
私たちのプロジェクトはhttps://github.com/Efficient-ML/Qwen3-Quantizationとhttps://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450dec1c868788cb2bでリリースされています。
関連論文リスト
- Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - Designing strong baselines for ternary neural network quantization
through support and mass equalization [7.971065005161565]
ディープニューラルネットワーク(DNN)は、コンピュータビジョンにおける幅広いアプリケーションにおいて、最高のパフォーマンスを提供する。
浮動小数点値を3次値に定量化することにより、この計算負担を劇的に低減することができる。
提案手法は, 様々なシナリオを用いて三次量子化の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-30T07:35:07Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。