論文の概要: Accelerating RL for LLM Reasoning with Optimal Advantage Regression
- arxiv url: http://arxiv.org/abs/2505.20686v1
- Date: Tue, 27 May 2025 03:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.391236
- Title: Accelerating RL for LLM Reasoning with Optimal Advantage Regression
- Title(参考訳): 最適アドバンテージ回帰を用いたLLM推論のための高速化RL
- Authors: Kianté Brantley, Mingyu Chen, Zhaolin Gao, Jason D. Lee, Wen Sun, Wenhao Zhan, Xuezhou Zhang,
- Abstract要約: 本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
- 参考スコア(独自算出の注目度): 52.0792918455501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has emerged as a powerful tool for fine-tuning large language models (LLMs) to improve complex reasoning abilities. However, state-of-the-art policy optimization methods often suffer from high computational overhead and memory consumption, primarily due to the need for multiple generations per prompt and the reliance on critic networks or advantage estimates of the current policy. In this paper, we propose $A$*-PO, a novel two-stage policy optimization framework that directly approximates the optimal advantage function and enables efficient training of LLMs for reasoning tasks. In the first stage, we leverage offline sampling from a reference policy to estimate the optimal value function $V$*, eliminating the need for costly online value estimation. In the second stage, we perform on-policy updates using a simple least-squares regression loss with only a single generation per prompt. Theoretically, we establish performance guarantees and prove that the KL-regularized RL objective can be optimized without requiring complex exploration strategies. Empirically, $A$*-PO achieves competitive performance across a wide range of mathematical reasoning benchmarks, while reducing training time by up to 2$\times$ and peak memory usage by over 30% compared to PPO, GRPO, and REBEL. Implementation of $A$*-PO can be found at https://github.com/ZhaolinGao/A-PO.
- Abstract(参考訳): 強化学習(RL)は、複雑な推論能力を改善するために、大規模言語モデル(LLM)を微調整するための強力なツールとして登場した。
しかし、現状のポリシー最適化手法は、しばしば高い計算オーバーヘッドとメモリ消費に悩まされる。
本稿では,最適優位関数を直接近似し,推論タスクのためのLLMの効率的なトレーニングを可能にする,新しい2段階ポリシー最適化フレームワークである$A$*-POを提案する。
最初の段階では、参照ポリシーからのオフラインサンプリングを利用して最適な値関数を$V$*で見積もる。
第2段階では、単純な最小二乗回帰損失を1プロンプト当たり1世代のみの単純な最小二乗回帰損失を用いて、オンライン更新を行う。
理論的には、我々は、KL規則化されたRL目標が複雑な探索戦略を必要とせずに最適化可能であることを証明し、性能保証を確立する。
実証的には、$A$*-POは、PPO、GRPO、REBELと比較して、トレーニング時間を最大2$\times$、ピークメモリ使用率を最大30%削減しながら、幅広い数学的推論ベンチマークの競争性能を達成する。
A$*-POの実装はhttps://github.com/ZhaolinGao/A-POで見ることができる。
関連論文リスト
- $Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training [60.01594991938747]
$Qsharp$ は KL 正規化 RL の値に基づくアルゴリズムで、最適な正規化 $Q$ 関数を使用して参照ポリシーを導出する。
この結果から,LLMのポストトレーニングに有効なアプローチとして$Qsharp$が注目され,性能と理論的保証が向上した。
論文 参考訳(メタデータ) (2025-02-27T21:43:00Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。
VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。
我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文 参考訳(メタデータ) (2024-05-10T17:59:04Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。