論文の概要: Beyond Output Matching: Preserving Internal Geometry in NVFP4 LLM Distillatio
- arxiv url: http://arxiv.org/abs/2606.05682v1
- Date: Thu, 04 Jun 2026 04:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.547015
- Title: Beyond Output Matching: Preserving Internal Geometry in NVFP4 LLM Distillatio
- Title(参考訳): 出力整合を超える:NVFP4 LLM蒸留における内部形状の保存
- Authors: Fangbo Tu, Junhua Zhao, Chi Liu, Xin Chen, Haifeng Wu, Jian Wan, Srinivasan Manoharan,
- Abstract要約: 量子化対応蒸留(QAD)は、低ビット量子化下で失われた精度を回復する。
我々は,KLのみのQADが,BF16教師と比較して階層的表現類似性を低減できることを示した。
我々は、NVFP4 QADのためのCKA誘導表現アライメント手法である textbfCKA-QAD と低ビットLLM精度回復法を提案する。
- 参考スコア(独自算出の注目度): 10.4712452422576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Demand for low-precision inference, including NVFP4-based approaches, has grown as large language models are increasingly deployed in latency and cost constrained production environments. Quantization-aware distillation (QAD) helps recover accuracy lost under low bit quantization by training a quantized student to match the output distribution of a frozen higher precision teacher via a KL-divergence loss. In this work, we first provide a representation level diagnosis of QAD: output matching alone can mask internal degradation, because many intermediate activation geometries can yield similar teacher-aligned logits. Using CKA, we show that KL-only QAD can reduce layerwise representational similarity relative to the BF16 teacher, with especially severe drift in RL-post-trained models. This drift correlates with downstream bottlenecks on reasoning and coding tasks, suggesting that low bit recovery requires preserving internal geometry rather than matching outputs alone. Motivated by this finding, we propose \textbf{CKA-QAD}, a CKA-guided representational alignment method for NVFP4 QAD and low bit LLM accuracy recovery. The method adds a lightweight regularizer that preserves internal representational geometry during distillation by aligning layerwise Gram matrices through CKA. Across Nemotron 3 Nano and Qwen3-4B-Thinking-2507, CKA-QAD substantially improves representational alignment and improves downstream reasoning and coding accuracy with modest training overhead. Our findings position CKA-guided representational alignment as a practical complement to output matching for quantized LLM recovery.
- Abstract(参考訳): NVFP4ベースのアプローチを含む低精度推論の需要は、大規模言語モデルがレイテンシとコスト制約のある運用環境にますますデプロイされるにつれて増大している。
量子化対応蒸留(QAD)は、量子化学生にKL分割損失により凍結された高精度教師の出力分布に一致するように訓練することにより、低ビット量子化下で失われた精度の回復を支援する。
本研究はまず,QADの表現レベル診断を行う。出力マッチングだけで内部劣化を隠蔽することができる。
CKAを用いて、KLのみのQADは、特にRL訓練後のモデルにおいて、BF16教師と比較して階層的表現類似性を減少させることができることを示す。
このドリフトは、推論やコーディングタスクにおける下流のボトルネックと相関し、低ビットのリカバリは出力のみにマッチするのではなく、内部の幾何学を保存する必要があることを示唆している。
そこで本研究では,NVFP4 QADのCKA誘導表現アライメント手法であるtextbf{CKA-QAD}を提案する。
この方法は、CKAを介して層状グラム行列を整列させることにより、蒸留中の内部表現幾何学を保存する軽量な正則化器を追加する。
Nemotron 3 Nano と Qwen3-4B-Thinking-2507 全体で、CKA-QAD は表現アライメントを大幅に改善し、下流の推論とコーディング精度を適度な訓練オーバーヘッドで改善した。
以上の結果から,CKA誘導型表現アライメントは,LLM回復のための出力マッチングの実用的補完として位置づけられた。
関連論文リスト
- Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals [83.0127582612634]
Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。
NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
論文 参考訳(メタデータ) (2026-05-21T16:45:31Z) - CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection [2.751147407342378]
CR-QAT(Relational Quantization-Aware Training)を提案する。
CR-QATは、プログレッシブ量子化のためにモデルを分割することでエラーの蓄積を軽減し、エラー分離による安定した最適化を保証する。
LVISとゼロショットベンチマークの実験では、CR-QATは攻撃的な低ビット設定下で既存のQATベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-03-06T06:57:55Z) - Don't be so Stief! Learning KV Cache low-rank approximation over the Stiefel manifold [7.162701793686856]
StiefAttentionは、出力再構成誤差を直接最小化し、インフォノーマルプロジェクションベースを学習するKV-cache圧縮手法である。
これは、C4の難易度が11.9ドル、0ショットMMLUの精度が5.4%でEigenAttentionを上回り、元のデコーダ層出力に対する相対誤差が低く、コサイン類似度も高い。
論文 参考訳(メタデータ) (2026-01-29T13:19:24Z) - FLRQ: Faster LLM Quantization with Flexible Low-Rank Matrix Sketching [4.01326804806241]
Rank1-Sketch-based Flexible Rank Selection (R1-FLR) と Best Low-rank Approximation under Clipping (BLC) を導入する。
R1-FLRは高速な低ランク近似のためにガウス射影を持つR1-Sketchを適用し、各層に対して外向きのランク抽出を可能にする。
BLCは、スケーリングとクリッピング戦略の下での低ランク量子化誤差の最小化を目的としている。
論文 参考訳(メタデータ) (2026-01-09T10:06:45Z) - Feedback Alignment Meets Low-Rank Manifolds: A Structured Recipe for Local Learning [7.034739490820967]
バックプロパゲーション(BP)を用いたディープニューラルネットワーク(DNN)のトレーニングは、最先端の精度を実現するが、大域的なエラー伝搬と完全なパラメータ化が必要である。
ダイレクトフィードバックアライメント(DFA)は、メモリ要件の低いローカルで並列化可能な更新を可能にする。
低ランク多様体上で直接動作する構造化局所学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:03:46Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。