論文の概要: Decomposing MXFP4 quantization error for LLM reinforcement learning: reducible bias, recoverable deadzone, and an irreducible floor
- arxiv url: http://arxiv.org/abs/2605.20402v2
- Date: Fri, 22 May 2026 00:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.703035
- Title: Decomposing MXFP4 quantization error for LLM reinforcement learning: reducible bias, recoverable deadzone, and an irreducible floor
- Title(参考訳): LLM強化学習におけるMXFP4量子化誤差の分解:再現可能なバイアス、回復可能なデッドゾーン、既約床
- Authors: Xiaocan Li, Shiliang Wu, Zheng Shen,
- Abstract要約: 既存の作業では、量子化誤差をモノリシックノイズ項として扱う。
量子化誤差を正確に3方向分解する。
それぞれのコンポーネントがRLトレーニング経路をいかに支配するかを示す。
- 参考スコア(独自算出の注目度): 2.5291809836356998
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: MXFP4 arithmetic can dramatically accelerate reinforcement learning (RL) post-training of large language models (LLMs), yet the quantization error introduces severe accuracy degradation. Existing work treats the quantization error as a monolithic noise term, missing the distinct mechanisms upon interpreting how quantization error damages training. We prove an exact three-way decomposition of quantization error and show how each component dominates a distinct RL training pathway. Our theoretical and empirical analysis decomposes the MXFP4 quantization error into three additive components: "scale bias" from power-of-two rounding, "deadzone truncation" from zeroing small values, and "grid noise" from rounding to the nearest 4-bit grid. Each component dominates a distinct RL failure mode: scale bias accumulates multiplicatively through the backward pass, affecting gradient accuracy; deadzone truncation degrades rollout quality; and grid noise raises the policy's entropy. We combine corrections that are RL failure mode-targeted but not component-exclusive: Macro-block scaling to reduce scale bias, Outlier Fallback recovers deadzone entries, but also partially reduces scale bias induced error, and Adaptive Quantization Noise (AQN) for controlling the policy entropy. On Qwen2.5-3B dense and Qwen3-30B-A3B-Base mixture-of-experts model, the targeted corrections recover BF16 accuracy to within 0.7% and exceed BF16 by +1.0% respectively.
- Abstract(参考訳): MXFP4算術は、大規模言語モデル(LLM)の学習後の強化学習(RL)を劇的に高速化するが、量子化誤差は深刻な精度低下をもたらす。
既存の研究は、量子化誤差をモノリシックノイズ用語として扱い、量子化エラーがトレーニングにどのように影響するかを解釈する際、明確なメカニズムを欠いている。
量子化誤差の正確な3方向分解を証明し、各成分がRL学習経路をいかに支配するかを示す。
我々の理論および実証分析はMXFP4量子化誤差を、2つのラウンドのパワーから「スケールバイアス」、小さな値のゼロから「デッドゾーントランケーション」、ラウンドから最も近い4ビットのグリッドへ「グリッドノイズ」という3つの加算成分に分解する。
スケールバイアスは後方通過を通じて乗算的に蓄積し、勾配の精度に影響を与え、デッドゾーンのトランケーションはロールアウトの品質を低下させ、グリッドノイズはポリシーのエントロピーを上昇させる。
マクロブロックスケーリングはスケールバイアスを低減し,Outlier Fallbackはデッドゾーンエントリを回復すると同時に,スケールバイアスによるエラーを部分的に低減すると同時に,ポリシエントロピーを制御するための適応量子化ノイズ(AQN)も組み合わせる。
Qwen2.5-3B高密度およびQwen3-30B-A3B-Base混合実験モデルでは、目標補正はBF16の精度を0.7%以内まで回復し、BF16を+1.0%以上上回る。
関連論文リスト
- TORQ: Two-Level Orthogonal Rotation for MXFP4 Quantization [13.984796236174331]
トレーニング不要なポストトライニング量子化フレームワークとしてTORQ (Two-level Orthogonal Rotation for MXFP4 Quantization)を提案する。
既存の手法と比較して, TORQはMXFP4の活性化量子化の精度を著しく向上させることを示した。
論文 参考訳(メタデータ) (2026-05-19T09:05:47Z) - Forgetting That Sticks: Quantization-Permanent Unlearning via Circuit Attribution [3.6704226968275253]
量子化を乗り越える手法はモデルにほとんど変化しないが, 圧縮条件下では, 有意義な忘れ方を実現するための勾配に基づく手法を示す。
因果回路の属性を組み合わせることで両モードを解消し,最小限の差分集合部分グラフを分離するMANSUを提案する。
さらに,構造的消去と行動抑制を区別する機構的検証尺度であるCircuit Attribution Divergence(CAD)を導入する。
論文 参考訳(メタデータ) (2026-05-14T17:44:10Z) - Q-Drift: Quantization-Aware Drift Correction for Diffusion Model Sampling [45.88028371034407]
ポストトレーニング量子化(PTQ)は、大規模な拡散モデルを展開するための実践的な方法である。
本稿では,量子化誤差を暗黙の摂動として扱うQ-Driftを提案する。
Q-Driftは、キャリブレーションから時間的変動統計を推定し、実際には5つの完全精度/量子化キャリブレーションを必要とする。
論文 参考訳(メタデータ) (2026-03-18T10:19:36Z) - SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization [7.372706701787234]
学習後量子化(PTQ)は,大規模言語モデルを効率的に展開するための一般的な手法として登場した。
SERQは1つの低ランク補償行列を用いる低ビットLLM推論のためのサリエンシ対応誤差再構成法である。
論文 参考訳(メタデータ) (2026-03-09T10:04:12Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - LoTA-QAF: Lossless Ternary Adaptation for Quantization-Aware Fine-Tuning [50.89500210372827]
リソース制約のあるエッジデバイスに大規模言語モデル(LLM)をデプロイするには、量子化と微調整が不可欠である。
LoTA-QAFは量子化LDM用に特別に設計された新しい微調整法である。
MMLUベンチマークでは,16ビットLORAを最大5.14%越えて,量子化モデルの性能を効果的に回復する。
論文 参考訳(メタデータ) (2025-05-24T14:47:28Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - The Accuracy vs. Sampling Overhead Trade-off in Quantum Error Mitigation
Using Monte Carlo-Based Channel Inversion [84.66087478797475]
量子誤差緩和(Quantum error mitigation, QEM)は、変分量子アルゴリズムの計算誤差を低減するための有望な手法の1つである。
我々はモンテカルロサンプリングに基づく実用的なチャネル反転戦略を考察し、さらなる計算誤差を導入する。
計算誤差が誤差のない結果の動的範囲と比較して小さい場合、ゲート数の平方根でスケールすることを示す。
論文 参考訳(メタデータ) (2022-01-20T00:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。