論文の概要: The Impact of Quantization on Large Reasoning Model Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.15694v1
- Date: Wed, 19 Nov 2025 18:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.9441
- Title: The Impact of Quantization on Large Reasoning Model Reinforcement Learning
- Title(参考訳): 大規模推論モデル強化学習における量子化の効果
- Authors: Medha Kumar, Zifei Xu, Xin Wang, Tristan Webb,
- Abstract要約: 大規模強化学習(RL)は、微調整を監督せずに強力な推論能力を得ることができる。
ポストトレーニング量子化(PTQ)と量子化対応トレーニング(QAT)はよく研究されているが、大きな推論モデル(LRM)における量子化がRLに与える影響は未解決のままである。
その結果,量子化を意識したRLトレーニングが学習プロセスに悪影響を及ぼしたのに対し,PTQとQLoRAは高い性能を示した。
- 参考スコア(独自算出の注目度): 3.0443465826145637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Strong reasoning capabilities can now be achieved by large-scale reinforcement learning (RL) without any supervised fine-tuning. Although post-training quantization (PTQ) and quantization-aware training (QAT) are well studied in the context of fine-tuning, how quantization impacts RL in large reasoning models (LRMs) remains an open question. To answer this question, we conducted systematic experiments and discovered a significant gap in reasoning performance on mathematical benchmarks between post-RL quantized models and their quantization-aware RL optimized counterparts. Our findings suggest that quantization-aware RL training negatively impacted the learning process, whereas PTQ and QLoRA led to greater performance.
- Abstract(参考訳): 教師付き微調整なしで大規模強化学習(RL)によって、強力な推論能力が実現できるようになった。
学習後量子化(PTQ)と量子化対応トレーニング(QAT)は微調整の文脈でよく研究されているが、大推論モデル(LRM)における量子化がRLに与える影響は未解決のままである。
この問題に対処するため、我々は系統的な実験を行い、RL後の量子化モデルとその量子化対応RL最適化モデル間の数学的ベンチマークにおける推論性能に大きなギャップを発見した。
その結果,量子化を意識したRLトレーニングが学習プロセスに悪影響を及ぼしたのに対し,PTQとQLoRAは高い性能を示した。
関連論文リスト
- Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文 参考訳(メタデータ) (2025-04-07T08:22:45Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Variance Control for Distributional Reinforcement Learning [22.407803118899512]
我々は,新しい推定器であるemphQuantiled Expansion Mean(QEM)を構築し,統計的観点から新しいDRLアルゴリズム(QEMRL)を導入する。
我々は,Atari と Mujoco のベンチマークタスクに対して,QEMRL アルゴリズムを広範囲に評価した。
論文 参考訳(メタデータ) (2023-07-30T07:25:18Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。