論文の概要: Unlocking Reasoning Capabilities in LLMs via Reinforcement Learning Exploration
- arxiv url: http://arxiv.org/abs/2510.03865v1
- Date: Sat, 04 Oct 2025 16:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.305947
- Title: Unlocking Reasoning Capabilities in LLMs via Reinforcement Learning Exploration
- Title(参考訳): 強化学習探索によるLLMのアンロック推論機能
- Authors: Wenhao Deng, Long Wei, Chenglei Yu, Tailin Wu,
- Abstract要約: より広範に焦点を絞った探索を促進するアルゴリズムであるRAPOを提案する。
8K SimpleRL-Zeroデータセット上で,RAPOを用いてQwen2.5-3Bと7Bモデルをトレーニングする。
その結果,RAPOは一貫して問題解決性能を向上することがわかった。
- 参考スコア(独自算出の注目度): 8.839121572048018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has recently enhanced the reasoning capabilities of large language models (LLMs), particularly for mathematical problem solving. However, a fundamental limitation remains: as the sampling budget increases, the advantage of RLVR-trained models over their pretrained bases often diminishes or even vanishes, revealing a strong dependence on the base model's restricted search space. We attribute this phenomenon to the widespread use of the reverse Kullback-Leibler (KL) divergence regularizer, whose mode-seeking behavior keeps the policy trapped inside the base model's support region and hampers wider exploration. To address this issue, we propose RAPO (Rewards-Aware Policy Optimization), an algorithm to promote broader yet focused exploration. Our method (i) utilizes the forward KL penalty to replace the reverse KL penalty for out-of-distribution exploration, and (ii) reweights the reference policy to facilitate adaptive in-distribution exploration. We train Qwen2.5-3B and 7B models with RAPO on the 8K SimpleRL-Zero dataset, without supervised fine-tuning, and evaluate them on AIME2024 and AIME2025. Results show that RAPO consistently improves problem-solving performance. Notably, RAPO enables models to surpass the base model's performance ceiling and solves previously intractable problems, advancing the frontier of RLVR for challenging reasoning tasks.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は近年,大規模言語モデル(LLM)の推論能力を強化している。
しかし、サンプリング予算が増加するにつれて、事前訓練されたベースに対するRLVR訓練モデルの利点はしばしば減少または消滅し、ベースモデルの制限された検索空間への強い依存が明らかになる。
我々は,この現象を,モード探索動作が基本モデルの支持領域内に閉じ込められたポリシーを維持し,広い探索を妨げている逆カルバック・リブラー(KL)分散正規化器(英語版)の広汎な利用に起因している。
この問題に対処するために,より広範囲に焦点を絞った探索を促進するアルゴリズムであるRAPO(Rewards-Aware Policy Optimization)を提案する。
我々の方法
一 配当外探査の逆KL罰の代替として前方KL罰を利用すること。
(二)適応的流通探究を促進するための基準方針を再検討すること。
我々は,8K SimpleRL-Zeroデータセット上でRAPOを用いてQwen2.5-3Bおよび7Bモデルを訓練し,それらをAIME2024およびAIME2025で評価した。
その結果,RAPOは一貫して問題解決性能を向上することがわかった。
特にRAPOは、モデルがベースモデルの性能天井を超えることを可能にし、これまで難解だった問題を解消し、RLVRのフロンティアを挑戦的な推論タスクへと前進させる。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards [16.22162269278471]
PSN-RLVRは、ロールアウト生成前にポリシーパラメータを摂動させ、時間的に一貫した軌道レベルの探索を誘導する。
本稿では,意味的多様性と正規化自己確実性を組み合わせた軽量サロゲートによって駆動される,計算効率のよいリアルタイム適応ノイズスケジューラを提案する。
論文 参考訳(メタデータ) (2026-01-30T13:10:30Z) - Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models [33.214586668992965]
検証可能な報酬(RLVR)による強化学習は、数学的およびマルチモーダル推論において驚くべき成果を上げている。
汎用知識のための動的客観的リウェイトを用いたRECAP-aリプレイ戦略を提案する。
本手法はエンド・ツー・エンドであり,既存のRLVRパイプラインに適用可能である。
論文 参考訳(メタデータ) (2025-10-24T19:08:48Z) - Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning [49.290631188365786]
Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。
これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。
この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
論文 参考訳(メタデータ) (2025-10-22T17:41:30Z) - Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models [22.50153462109328]
Reinforcement Learning with Verifiable Rewards (RLVR) は,Large Language Models (LLMs) の強化に有効であることが証明された。
リスク感性強化学習フレームワークを導入する。
提案手法では,平均と最大報酬を補間するリスク探索の手法を用いて,新しいアルゴリズムを提案する。
注目すべきは、RS-GRPOの実装が簡単で、マイナーなコード修正しか必要としないことだ。
論文 参考訳(メタデータ) (2025-09-29T04:12:20Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Learning to Reason under Off-Policy Guidance [40.27817638425237]
textbfLUFFY(textbfLearning to reason textbfUnder otextbfFF-polictextbfY guidance)を導入する。
LUFFYは、模擬と探検のバランスを取るために、オフ・ポリティクスのデモとオン・ポリティクスのロールアウトを組み合わせる。
論文 参考訳(メタデータ) (2025-04-21T08:09:13Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF [22.88031166401938]
本稿では、より柔軟でより良い位置参照モデルを作成することにより、制限を克服する新しいアプローチであるSALSAを提案する。
SALSAは、より良い探索を奨励し、より高い報酬を達成し、モデルの堅牢性、アウト・オブ・ディストリビューション、パフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-11-04T04:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。