論文の概要: A Case Study of Selected PTQ Baselines for Reasoning LLMs on Ascend NPU
- arxiv url: http://arxiv.org/abs/2602.17693v1
- Date: Fri, 06 Feb 2026 09:22:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.53175
- Title: A Case Study of Selected PTQ Baselines for Reasoning LLMs on Ascend NPU
- Title(参考訳): Ascend NPU 上で LLM を推論するための選択された PTQ ベースラインの一検討
- Authors: Yuchen Luo, Fangyue Zhu, Ruining Zhou, Mingzhe Huang, Jian Zhu, Fanyu Fan, Wei Shao,
- Abstract要約: トレーニング後の量子化(PTQ)は、Ascend NPU上での効率的なモデル展開に不可欠である。
本稿では,DeepSeek-R1-Distill-Qwenシリーズ(1.5B/7B/14B)やQwQ-32Bといった推論指向モデルに適用したPTQベースラインのケーススタディを示す。
AWQ、GPTQ、SmoothQuant、FlatQuantの4つの異なるアルゴリズムを評価し、重量のみの圧縮から高度な回転法までの範囲をカバーする。
- 参考スコア(独自算出の注目度): 7.030422837091069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-Training Quantization (PTQ) is crucial for efficient model deployment, yet its effectiveness on Ascend NPU remains under-explored compared to GPU architectures. This paper presents a case study of representative PTQ baselines applied to reasoning-oriented models such as DeepSeek-R1-Distill-Qwen series (1.5B/7B/14B) and QwQ-32B. We evaluate four distinct algorithms, including AWQ, GPTQ, SmoothQuant, and FlatQuant, to cover the spectrum from weight-only compression to advanced rotation-based methods. Our empirical results reveal significant platform sensitivity. While 4-bit weight-only quantization proves viable for larger models, aggressive 4-bit weight-activation schemes suffer from layer-wise calibration instability on the NPU, leading to logic collapse in long-context reasoning tasks. Conversely, standard 8-bit quantization remains numerically stable. Furthermore, a real-world INT8 deployment demonstrates that although optimized kernels reduce latency, dynamic quantization overheads currently limit end-to-end acceleration. These findings offer a practical reference for the feasibility and limitations of deploying quantized reasoning models on Ascend NPU.
- Abstract(参考訳): トレーニング後の量子化(PTQ)は効率的なモデルデプロイメントには不可欠だが、Ascend NPUにおけるその有効性はGPUアーキテクチャと比較して未探索のままである。
本稿では,DeepSeek-R1-Distill-Qwenシリーズ(1.5B/7B/14B)やQwQ-32Bといった推論指向モデルに適用した代表PTQベースラインのケーススタディを示す。
AWQ、GPTQ、SmoothQuant、FlatQuantの4つの異なるアルゴリズムを評価し、重量のみの圧縮から高度な回転法までの範囲をカバーする。
実験結果から, プラットフォームに対する感受性が顕著であった。
4ビットの重みのみの量子化はより大きなモデルでは実現可能であるが、攻撃的な4ビットの重みアクティベーションスキームはNPUの層ワイドキャリブレーション不安定性に悩まされ、長文推論タスクでは論理的に崩壊する。
逆に、標準的な8ビット量子化は数値的に安定である。
さらに、現実世界のINT8デプロイメントでは、最適化されたカーネルはレイテンシを低減しているが、動的量子化オーバーヘッドは現在エンドツーエンドのアクセラレーションを制限している。
これらの知見は、Ascend NPU上に量子化推論モデルをデプロイする可能性と限界について、実用的な参照を提供する。
関連論文リスト
- HeRo-Q: A General Framework for Stable Low Bit Quantization via Hessian Conditioning [5.407724832457912]
量子化前の重み空間に軽量で学習可能な回転圧縮行列を適用したヘッセンロバスト量子化(HeRo Q)アルゴリズムを提案する。
LlamaとQwenの実験では、HeRo QはGPTQ、AWQ、SpinQuantといったアートメソッドの状態を一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-29T12:27:05Z) - What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study [59.44848132298657]
ポストトレーニング量子化(PTQ)は通常、特に低ビット設定でのタスクの推論において、大きな精度低下のコストが伴う。
本研究では,推論モデルに対する量子化認識学習(QAT)の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-21T11:22:29Z) - Quantizing Small-Scale State-Space Models for Edge AI [0.4941855521192951]
ステートスペースモデル(SSM)は、最近、長距離依存を効率的にモデル化する能力について、ディープラーニングで注目を集めている。
本稿では,タスク性能を維持しながら,メモリと計算コストの削減に焦点をあてて,小型SSMにおける量子化の効果を分析する。
論文 参考訳(メタデータ) (2025-06-14T12:43:47Z) - Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-Tuning [14.145862114439831]
モデル量子化はウェイトとアクティベーションのビット幅を減らし、メモリ効率と推論速度を改善する。
既存の方法は、主に整数量子化と後学習量子化の微調整に基づいており、矛盾しない性能に悩まされている。
本稿では、まずモデル量子化に符号なしFP量子化を導入し、時間ステップ対応のLoRAとデノナイジング・ファクター損失アライメントを併用する混合符号浮動小数点量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:40:47Z) - Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。
我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。
我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文 参考訳(メタデータ) (2025-05-08T13:26:19Z) - Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文 参考訳(メタデータ) (2025-04-07T08:22:45Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。