論文の概要: QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
- arxiv url: http://arxiv.org/abs/2510.11696v1
- Date: Mon, 13 Oct 2025 17:55:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.498952
- Title: QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs
- Title(参考訳): QeRL: LLMの効率性を超えた量子化強化学習
- Authors: Wei Huang, Yi Ge, Shuai Yang, Yicheng Xiao, Huizi Mao, Yujun Lin, Hanrong Ye, Sifei Liu, Ka Chun Cheung, Hongxu Yin, Yao Lu, Xiaojuan Qi, Song Han, Yukang Chen,
- Abstract要約: 大規模言語モデル(LLM)のための量子化強化学習フレームワークQeRLを提案する。
QeRLは、NVFP4量子化とローランド適応(LoRA)を組み合わせた問題に対処する。
実験によると、QeRLはロールアウトフェーズで1.5倍以上のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 80.76334908639745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose QeRL, a Quantization-enhanced Reinforcement Learning framework for large language models (LLMs). While RL is essential for LLMs' reasoning capabilities, it is resource-intensive, requiring substantial GPU memory and long rollout durations. QeRL addresses these issues by combining NVFP4 quantization with Low-Rank Adaptation (LoRA), accelerating rollout phase of RL while reducing memory overhead. Beyond efficiency, our findings show that quantization noise increases policy entropy, enhancing exploration, and enabling the discovery of better strategies during RL. To further optimize exploration, QeRL introduces an Adaptive Quantization Noise (AQN) mechanism, which dynamically adjusts noise during training. Experiments demonstrate that QeRL delivers over 1.5 times speedup in the rollout phase. Moreover, this is the first framework to enable RL training of a 32B LLM on a single H100 80GB GPU, while delivering overall speedups for RL training. It also achieves faster reward growth and higher final accuracy than 16-bit LoRA and QLoRA, while matching the performance of full-parameter fine-tuning on mathematical benchmarks such as GSM8K (90.8%) and MATH 500 (77.4%) in the 7B model. These results establish QeRL as an efficient and effective framework for RL training in LLMs.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)のための量子化強化学習フレームワークQeRLを提案する。
RLはLLMの推論能力には不可欠だが、リソース集約であり、相当なGPUメモリと長時間のロールアウトを必要とする。
QeRLは、NVFP4量子化とLo-Rank Adaptation (LoRA)を組み合わせることでこれらの問題に対処し、RLのロールアウトフェーズを加速し、メモリオーバーヘッドを低減した。
この結果から,量子化ノイズは政策エントロピーを増大させ,探索を増強し,RLにおけるより良い戦略の発見を可能にすることが示唆された。
探索をさらに最適化するために、QeRLは適応量子化ノイズ(AQN)機構を導入し、トレーニング中のノイズを動的に調整する。
実験によると、QeRLはロールアウトフェーズで1.5倍以上のスピードアップを実現している。
さらに、これは単一のH100 80GB GPU上で32B LLMのRLトレーニングを可能にする最初のフレームワークであり、RLトレーニングの全体的なスピードアップを提供する。
また、7Bモデルでは GSM8K (90.8%) や MATH 500 (77.4%) などの数学ベンチマークでのフルパラメータの微調整のパフォーマンスと一致しながら、16ビットの LoRA や QLoRA よりも高速で最終的な精度が向上する。
これらの結果から,LLMにおけるRLトレーニングの効率的かつ効果的なフレームワークとしてQeRLが確立された。
関連論文リスト
- From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。
強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。
RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文 参考訳(メタデータ) (2025-10-02T01:31:10Z) - APRIL: Active Partial Rollouts in Reinforcement Learning to Tame Long-tail Generation [40.120847511378365]
強化学習(RL)は、大規模事前訓練言語モデル(LLM)の進展の基盤となっている。
強化学習におけるアクティブ部分ロールアウト(APRIL)を提案する。
APRILはロールアウト要求をオーバープロビジョンし、ターゲットのレスポンス数が到達したら終了し、将来のステップで継続するために不完全なレスポンスをリサイクルする。
論文 参考訳(メタデータ) (2025-09-23T01:32:36Z) - A Survey of Reinforcement Learning for Large Reasoning Models [98.58081012669369]
大規模言語モデルによる推論のための強化学習の最近の進歩について
LRMのためのRLのさらなるスケーリングは、計算資源だけでなく、アルゴリズム設計、トレーニングデータ、インフラにおいても課題に直面している。
論文 参考訳(メタデータ) (2025-09-10T17:59:43Z) - LlamaRL: A Distributed Asynchronous Reinforcement Learning Framework for Efficient Large-scale LLM Training [32.575669924032276]
強化学習(RL)は、大規模言語モデル(LLM)の能力向上のための訓練後の最も効果的なアプローチとなっている。
本稿では,LlamaRLについて述べる。LlamaRLは大規模LLMの効率的なトレーニングに最適化された,完全に分散された非同期RLフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T22:14:15Z) - Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
人間のフィードバックからの強化学習(RLHF)は、事前訓練された大言語と視覚言語モデルと人間の嗜好を効果的に一致させる。
微調整の計算負担を軽減するため、LoRAのような効率的な手法が導入された。
PE-RLHFセットアップを、要約、無害/重厚な応答生成、UI自動化、視覚的質問応答にまたがる6つの多様なデータセットでベンチマークする。
論文 参考訳(メタデータ) (2024-03-15T21:43:46Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。