論文の概要: Post-Training Quantization of OpenPangu Models for Efficient Deployment on Atlas A2
- arxiv url: http://arxiv.org/abs/2512.23367v1
- Date: Mon, 29 Dec 2025 10:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.469922
- Title: Post-Training Quantization of OpenPangu Models for Efficient Deployment on Atlas A2
- Title(参考訳): Atlas A2上での効率的なデプロイのためのOpenPanguモデルのトレーニング後の量子化
- Authors: Yilun Luo, HuaQing Zheng, Haoqian Meng, Wenyuan Liu, Peng Zhang,
- Abstract要約: HuaweiのopenPangu-Embeded-1BとopenPangu-Embeded-7Bは3つの異なるChain-of-Thought(CoT)推論パラダイムを統合している。
これらのCoTモードではメモリとレイテンシのオーバーヘッドが大きくなり、Ascend NPUへの実践的なデプロイが困難になる。
本稿では、FP16計算をより効率的な整数算術に変換する低ビット量子化を利用して、これらの計算制約に対処する。
- 参考スコア(独自算出の注目度): 3.309291427648113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Huawei's openPangu-Embedded-1B and openPangu-Embedded-7B, variants of the openPangu large language model, integrate three distinct Chain-of-Thought (CoT) reasoning paradigms, namely slow_think, auto_think, and no_think. While these CoT modes enhance reasoning capabilities, their generation of extended reasoning traces introduces substantial memory and latency overheads, posing challenges for practical deployment on Ascend NPUs. This paper addresses these computational constraints by leveraging low-bit quantization, which transforms FP16 computations into more efficient integer arithmetic. We introduce a unified low-bit inference framework, supporting INT8 (W8A8) and W4A8 quantization, specifically optimized for openPangu-Embedded models on the Atlas A2. Our comprehensive evaluation, conducted across all three CoT modes on code generation benchmarks (HumanEval and MBPP), demonstrates the efficacy of this approach. INT8 quantization consistently preserves over 90\% of the FP16 baseline accuracy and achieves a 1.5x prefill speedup on the Atlas A2. Furthermore, W4A8 quantization significantly reduces memory consumption, albeit with a moderate trade-off in accuracy. These findings collectively indicate that low-bit quantization effectively facilitates efficient CoT reasoning on Ascend NPUs, maintaining high model fidelity.
- Abstract(参考訳): HuaweiのopenPangu-Embedded-1BとopenPangu-Embedded-7Bは、openPanguの大規模言語モデルの亜種で、3つの異なるChain-of-Thought(CoT)推論パラダイム、すなわち slow_think、auto_think、no_thinkを統合している。
これらのCoTモードは推論能力を向上するが、拡張された推論トレースの生成は、メモリと遅延のオーバーヘッドを大幅に増加させ、Ascend NPUに実践的なデプロイを行う上での課題を提起する。
本稿では、FP16計算をより効率的な整数算術に変換する低ビット量子化を利用して、これらの計算制約に対処する。
我々は、Atlas A2上のopenPangu-Embeddedモデルに特に最適化されたINT8(W8A8)とW4A8量子化をサポートする統一された低ビット推論フレームワークを導入する。
コード生成ベンチマーク(HumanEvalとMBPP)の3つのCoTモードで実施した総合評価は,このアプローチの有効性を実証する。
INT8量子化は、FP16ベースラインの精度の90%以上を一貫して保持し、アトラスA2の1.5倍のプリフィルスピードアップを達成する。
さらに、W4A8量子化はメモリ消費を大幅に削減するが、精度は適度なトレードオフがある。
これらの結果は、低ビット量子化がAscend NPUの効率的なCoT推論を効果的に促進し、高モデル忠実性を維持することを示唆している。
関連論文リスト
- CoT-X: An Adaptive Framework for Cross-Model Chain-of-Thought Transfer and Optimization [5.857877898558651]
CoT(Chain-of-Thought)推論は、大規模言語モデル(LLM)の問題解決能力を高めるが、かなりの推論オーバーヘッドをもたらす。
本稿では、適応的推論要約フレームワークを用いて、異なるスケールとアーキテクチャのモデル間での効率的なCoT転送について検討する。
論文 参考訳(メタデータ) (2025-11-07T22:35:31Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - Optimization of embeddings storage for RAG systems using quantization and dimensionality reduction techniques [0.0]
本研究では,float8量子化により,性能劣化を最小限に抑えつつ,ストレージの4倍の低減を実現することを示す。
PCAは最も効果的な次元削減技術として出現する。
本稿では,最適構成を特定するために,性能記憶トレードオフ空間を可視化する手法を提案する。
論文 参考訳(メタデータ) (2025-04-30T18:20:16Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - ZeroQuant: Efficient and Affordable Post-Training Quantization for
Large-Scale Transformers [29.566132632781848]
我々は、ZeroQuantと呼ばれる大きなTransformerベースのモデルを圧縮するための、効率的で安価なポストトレーニング量子化手法を提案する。
ZeroQuantは3つの主要コンポーネントを備えたエンドツーエンドの量子化と推論パイプラインである。
論文 参考訳(メタデータ) (2022-06-04T00:28:21Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。