論文の概要: The Impact of Quantization on Large Reasoning Model Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.15694v1
- Date: Wed, 19 Nov 2025 18:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.9441
- Title: The Impact of Quantization on Large Reasoning Model Reinforcement Learning
- Title(参考訳): 大規模推論モデル強化学習における量子化の効果
- Authors: Medha Kumar, Zifei Xu, Xin Wang, Tristan Webb,
- Abstract要約: 大規模強化学習(RL)は、微調整を監督せずに強力な推論能力を得ることができる。
ポストトレーニング量子化(PTQ)と量子化対応トレーニング(QAT)はよく研究されているが、大きな推論モデル(LRM)における量子化がRLに与える影響は未解決のままである。
その結果,量子化を意識したRLトレーニングが学習プロセスに悪影響を及ぼしたのに対し,PTQとQLoRAは高い性能を示した。
- 参考スコア(独自算出の注目度): 3.0443465826145637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Strong reasoning capabilities can now be achieved by large-scale reinforcement learning (RL) without any supervised fine-tuning. Although post-training quantization (PTQ) and quantization-aware training (QAT) are well studied in the context of fine-tuning, how quantization impacts RL in large reasoning models (LRMs) remains an open question. To answer this question, we conducted systematic experiments and discovered a significant gap in reasoning performance on mathematical benchmarks between post-RL quantized models and their quantization-aware RL optimized counterparts. Our findings suggest that quantization-aware RL training negatively impacted the learning process, whereas PTQ and QLoRA led to greater performance.
- Abstract(参考訳): 教師付き微調整なしで大規模強化学習(RL)によって、強力な推論能力が実現できるようになった。
学習後量子化(PTQ)と量子化対応トレーニング(QAT)は微調整の文脈でよく研究されているが、大推論モデル(LRM)における量子化がRLに与える影響は未解決のままである。
この問題に対処するため、我々は系統的な実験を行い、RL後の量子化モデルとその量子化対応RL最適化モデル間の数学的ベンチマークにおける推論性能に大きなギャップを発見した。
その結果,量子化を意識したRLトレーニングが学習プロセスに悪影響を及ぼしたのに対し,PTQとQLoRAは高い性能を示した。
関連論文リスト
- What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study [59.44848132298657]
ポストトレーニング量子化(PTQ)は通常、特に低ビット設定でのタスクの推論において、大きな精度低下のコストが伴う。
本研究では,推論モデルに対する量子化認識学習(QAT)の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-21T11:22:29Z) - Tailored Primitive Initialization is the Secret Key to Reinforcement Learning [61.29280885291581]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。
そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
論文 参考訳(メタデータ) (2025-11-16T03:12:40Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Reshaping Reasoning in LLMs: A Theoretical Analysis of RL Training Dynamics through Pattern Selection [35.268183415853976]
本稿では,実験解析と厳密な理論的モデリングによるRL学習プロセスの説明を行う。
我々は、報酬(RLVR)とモデルの内部フィードバック(RLIF)という2つの典型的な報酬を用いて、RLのトレーニングダイナミクスを理解するための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-06-05T07:17:04Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文 参考訳(メタデータ) (2025-04-07T08:22:45Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Variance Control for Distributional Reinforcement Learning [22.407803118899512]
我々は,新しい推定器であるemphQuantiled Expansion Mean(QEM)を構築し,統計的観点から新しいDRLアルゴリズム(QEMRL)を導入する。
我々は,Atari と Mujoco のベンチマークタスクに対して,QEMRL アルゴリズムを広範囲に評価した。
論文 参考訳(メタデータ) (2023-07-30T07:25:18Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。