論文の概要: Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities
- arxiv url: http://arxiv.org/abs/2602.05281v1
- Date: Thu, 05 Feb 2026 04:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.753846
- Title: Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities
- Title(参考訳): 基本に戻す: 生成確率によるLLM推論のための強化学習の探求を再考する
- Authors: Pengyi Li, Elizaveta Goncharova, Andrey Kuznetsov, Ivan Oseledets,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
- 参考スコア(独自算出の注目度): 10.235183326885794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an indispensable paradigm for enhancing reasoning in Large Language Models (LLMs). However, standard policy optimization methods, such as Group Relative Policy Optimization (GRPO), often converge to low-entropy policies, leading to severe mode collapse and limited output diversity. We analyze this issue from the perspective of sampling probability dynamics, identifying that the standard objective disproportionately reinforces the highest-likelihood paths, thereby suppressing valid alternative reasoning chains. To address this, we propose a novel Advantage Re-weighting Mechanism (ARM) designed to equilibrate the confidence levels across all correct responses. By incorporating Prompt Perplexity and Answer Confidence into the advantage estimation, our method dynamically reshapes the reward signal to attenuate the gradient updates of over-confident reasoning paths, while redistributing probability mass toward under-explored correct solutions. Empirical results demonstrate that our approach significantly enhances generative diversity and response entropy while maintaining competitive accuracy, effectively achieving a superior trade-off between exploration and exploitation in reasoning tasks. Empirical results on Qwen2.5 and DeepSeek models across mathematical and coding benchmarks show that ProGRPO significantly mitigates entropy collapse. Specifically, on Qwen2.5-7B, our method outperforms GRPO by 5.7% in Pass@1 and, notably, by 13.9% in Pass@32, highlighting its superior capability in generating diverse correct reasoning paths.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models (LLMs)における推論の強化に欠かせないパラダイムとして登場した。
しかし、グループ相対政策最適化(GRPO)のような標準的な政策最適化手法は、しばしば低エントロピー政策に収束し、深刻なモード崩壊と限られた出力多様性をもたらす。
我々は,この問題をサンプリング確率力学の観点から分析し,標準目的が高次経路を不均等に強化し,有効な代替推論連鎖を抑えることを確認した。
そこで本研究では,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構(ARM)を提案する。
Prompt Perplexity と Answer Confidence を利点推定に組み込むことにより,提案手法は報酬信号を動的に再認識し,過度に信頼された推論経路の勾配更新を減らし,確率質量を過度に探索された正しい解へ再分配する。
実験結果から,本手法は競争精度を維持しつつ,生成多様性と応答エントロピーを著しく向上させ,推論タスクにおける探索と搾取のトレードオフを効果的に達成できることが示唆された。
Qwen2.5およびDeepSeekモデルの数学的およびコーディングベンチマークによる実証結果は、ProGRPOがエントロピー崩壊を著しく軽減していることを示している。
具体的には,Qwen2.5-7Bでは,Pass@1ではGRPOが5.7%,特にPass@32では13.9%向上し,多様な正しい推論経路を生成する能力に優れていた。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck [20.113524065146674]
イテレーティブ・インフォメーション・ボトルネック(IIB-LPO)は、トークンの統計的摂動から推論軌道のトポロジカル分岐へと探索を移す新しいアプローチである。
IIB-LPOは最先端のパフォーマンスを達成し、従来の手法を最大5.3%の精度と7.4%の多様性で上回っている。
論文 参考訳(メタデータ) (2026-01-09T15:46:40Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - RiskPO: Risk-based Policy Optimization via Verifiable Reward for LLM Post-Training [13.309653291779233]
検証可能な報酬を伴う強化学習は、大規模言語モデル(LLM)の訓練後の中心パラダイムとして浮上している。
これらの問題は、稀だが有意義な推論パスを無視しながら、高確率な出力シーケンスを過度に強調することに起因すると我々は主張する。
本稿では,古典的平均的目標を原則的リスク対策に置き換えるリスクベース政策最適化(RiskPO)を提案する。
論文 参考訳(メタデータ) (2025-10-01T13:53:09Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。