論文の概要: Quantization-Aware Distillation for NVFP4 Inference Accuracy Recovery
- arxiv url: http://arxiv.org/abs/2601.20088v1
- Date: Tue, 27 Jan 2026 22:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.680014
- Title: Quantization-Aware Distillation for NVFP4 Inference Accuracy Recovery
- Title(参考訳): NVFP4推論精度回復のための量子化対応蒸留
- Authors: Meng Xin, Sweta Priyadarshi, Jingyu Xin, Bilal Kartal, Aditya Vavre, Asma Kuriparambil Thekkumpate, Zijia Chen, Ameya Sunil Mahabaleshwarkar, Ido Shahaf, Akhiad Bercovich, Kinjal Patel, Suguna Varshini Velury, Chenjie Luo, Zhiyu Cheng, Jenny Chen, Chen-Han Yu, Wei Ping, Oleg Rybakov, Nima Tajbakhsh, Oluwatobi Olabiyi, Dusan Stosic, Di Wu, Song Han, Eric Chung, Sharath Turuvekere Sreenivas, Bryan Catanzaro, Yoshi Suhara, Tijmen Blankevoort, Huizi Mao,
- Abstract要約: 量子化対応蒸留(QAD)は、完全精度の教師モデルをKL分散損失を用いた量子化学生モデルに蒸留する。
多段階のポストトレーニングパイプラインを通じてトレーニングされたモデルに対して、顕著な効果と安定性を示す。
データ品質とカバレッジに堅牢で、完全なトレーニングデータなしで正確なリカバリを可能にする。
- 参考スコア(独自算出の注目度): 42.06984987528608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report presents quantization-aware distillation (QAD) and our best practices for recovering accuracy of NVFP4-quantized large language models (LLMs) and vision-language models (VLMs). QAD distills a full-precision teacher model into a quantized student model using a KL divergence loss. While applying distillation to quantized models is not a new idea, we observe key advantages of QAD for today's LLMs: 1. It shows remarkable effectiveness and stability for models trained through multi-stage post-training pipelines, including supervised fine-tuning (SFT), reinforcement learning (RL), and model merging, where traditional quantization-aware training (QAT) suffers from engineering complexity and training instability; 2. It is robust to data quality and coverage, enabling accuracy recovery without full training data. We evaluate QAD across multiple post-trained models including AceReason Nemotron, Nemotron 3 Nano, Nemotron Nano V2, Nemotron Nano V2 VL (VLM), and Llama Nemotron Super v1, showing consistent recovery to near-BF16 accuracy.
- Abstract(参考訳): 本稿では,量子化対応蒸留(QAD)と,NVFP4量子化大言語モデル(LLM)と視覚言語モデル(VLM)の精度回復のためのベストプラクティスについて述べる。
QADは、完全精度の教師モデルをKL分散損失を用いて量子化された学生モデルに蒸留する。
量子化モデルに蒸留を適用することは新しいアイデアではないが、今日のLLMにおけるQADの重要な利点を観察する。
1. 教師付き微調整(SFT)、強化学習(RL)、モデルマージング(モデルマージング)を含む多段階後訓練パイプラインで訓練されたモデルにおいて、従来の量子化対応トレーニング(QAT)が工学的複雑さと訓練不安定性に悩まされる場合において、顕著な効果と安定性を示す。
2. データ品質とカバレッジに堅牢で、完全なトレーニングデータなしで正確なリカバリを可能にします。
我々は,AceReason Nemotron,Nemotron 3 Nano,Nemotron Nano V2,Nemotron Nano V2 VL (VLM),Llama Nemotron Super v1などのポストトレーニング後のモデルでQADを評価し,ほぼBF16精度の回復を示した。
関連論文リスト
- What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study [59.44848132298657]
ポストトレーニング量子化(PTQ)は通常、特に低ビット設定でのタスクの推論において、大きな精度低下のコストが伴う。
本研究では,推論モデルに対する量子化認識学習(QAT)の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-21T11:22:29Z) - Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - Why Knowledge Distillation Works in Generative Models: A Minimal Working Explanation [50.784080714897776]
知識蒸留(KD)は、現代の生産モデルの訓練と展開における中核的な要素である。
我々は,KDが学生モデルにおける精度とリコールのトレードオフを引き起こすことを示す。
本分析は、生成モデルにおけるKDの有効性について、単純かつ一般的な説明を提供する。
論文 参考訳(メタデータ) (2025-05-19T13:39:47Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Oh! We Freeze: Improving Quantized Knowledge Distillation via Signal Propagation Analysis for Large Language Models [5.69541128149828]
大規模言語モデル(LLM)や拡散モデルといった大規模な生成モデルは、それぞれNLPとコンピュータビジョンの分野に革命をもたらした。
本研究では, 知識蒸留(KD-QAT)を用いた軽量量子化対応微調整技術を提案し, 4ビット量化LDMの性能向上を図る。
我々は, ovフリーズがほぼ浮動小数点精度, すなわちCommonsense Reasoningベンチマークにおいて0.7%未満の精度で精度を低下させることを示す。
論文 参考訳(メタデータ) (2024-03-26T23:51:44Z) - Improved Techniques for Training Consistency Models [13.475711217989975]
本稿では, 蒸留なしでデータから直接一貫性モデルを学習する, 整合性トレーニングのための改良手法を提案する。
整合性学習目的のための対数正規雑音スケジュールを提案し、トレーニングの繰り返し回数毎に全離散化ステップを2倍にすることを提案する。
これらの修正により、一貫性モデルは1回のサンプリングステップでCIFAR-10で2.51と3.25のFIDスコア、ImageNetで64ドルをそれぞれ達成できる。
論文 参考訳(メタデータ) (2023-10-22T05:33:38Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。