論文の概要: Unlocking Reasoning Capabilities in LLMs via Reinforcement Learning Exploration
- arxiv url: http://arxiv.org/abs/2510.03865v1
- Date: Sat, 04 Oct 2025 16:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.305947
- Title: Unlocking Reasoning Capabilities in LLMs via Reinforcement Learning Exploration
- Title(参考訳): 強化学習探索によるLLMのアンロック推論機能
- Authors: Wenhao Deng, Long Wei, Chenglei Yu, Tailin Wu,
- Abstract要約: より広範に焦点を絞った探索を促進するアルゴリズムであるRAPOを提案する。
8K SimpleRL-Zeroデータセット上で,RAPOを用いてQwen2.5-3Bと7Bモデルをトレーニングする。
その結果,RAPOは一貫して問題解決性能を向上することがわかった。
- 参考スコア(独自算出の注目度): 8.839121572048018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has recently enhanced the reasoning capabilities of large language models (LLMs), particularly for mathematical problem solving. However, a fundamental limitation remains: as the sampling budget increases, the advantage of RLVR-trained models over their pretrained bases often diminishes or even vanishes, revealing a strong dependence on the base model's restricted search space. We attribute this phenomenon to the widespread use of the reverse Kullback-Leibler (KL) divergence regularizer, whose mode-seeking behavior keeps the policy trapped inside the base model's support region and hampers wider exploration. To address this issue, we propose RAPO (Rewards-Aware Policy Optimization), an algorithm to promote broader yet focused exploration. Our method (i) utilizes the forward KL penalty to replace the reverse KL penalty for out-of-distribution exploration, and (ii) reweights the reference policy to facilitate adaptive in-distribution exploration. We train Qwen2.5-3B and 7B models with RAPO on the 8K SimpleRL-Zero dataset, without supervised fine-tuning, and evaluate them on AIME2024 and AIME2025. Results show that RAPO consistently improves problem-solving performance. Notably, RAPO enables models to surpass the base model's performance ceiling and solves previously intractable problems, advancing the frontier of RLVR for challenging reasoning tasks.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は近年,大規模言語モデル(LLM)の推論能力を強化している。
しかし、サンプリング予算が増加するにつれて、事前訓練されたベースに対するRLVR訓練モデルの利点はしばしば減少または消滅し、ベースモデルの制限された検索空間への強い依存が明らかになる。
我々は,この現象を,モード探索動作が基本モデルの支持領域内に閉じ込められたポリシーを維持し,広い探索を妨げている逆カルバック・リブラー(KL)分散正規化器(英語版)の広汎な利用に起因している。
この問題に対処するために,より広範囲に焦点を絞った探索を促進するアルゴリズムであるRAPO(Rewards-Aware Policy Optimization)を提案する。
我々の方法
一 配当外探査の逆KL罰の代替として前方KL罰を利用すること。
(二)適応的流通探究を促進するための基準方針を再検討すること。
我々は,8K SimpleRL-Zeroデータセット上でRAPOを用いてQwen2.5-3Bおよび7Bモデルを訓練し,それらをAIME2024およびAIME2025で評価した。
その結果,RAPOは一貫して問題解決性能を向上することがわかった。
特にRAPOは、モデルがベースモデルの性能天井を超えることを可能にし、これまで難解だった問題を解消し、RLVRのフロンティアを挑戦的な推論タスクへと前進させる。
関連論文リスト
- Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models [22.50153462109328]
Reinforcement Learning with Verifiable Rewards (RLVR) は,Large Language Models (LLMs) の強化に有効であることが証明された。
リスク感性強化学習フレームワークを導入する。
提案手法では,平均と最大報酬を補間するリスク探索の手法を用いて,新しいアルゴリズムを提案する。
注目すべきは、RS-GRPOの実装が簡単で、マイナーなコード修正しか必要としないことだ。
論文 参考訳(メタデータ) (2025-09-29T04:12:20Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF [22.88031166401938]
本稿では、より柔軟でより良い位置参照モデルを作成することにより、制限を克服する新しいアプローチであるSALSAを提案する。
SALSAは、より良い探索を奨励し、より高い報酬を達成し、モデルの堅牢性、アウト・オブ・ディストリビューション、パフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-11-04T04:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。