論文の概要: Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward
- arxiv url: http://arxiv.org/abs/2512.16912v1
- Date: Thu, 18 Dec 2025 18:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.252348
- Title: Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward
- Title(参考訳): 探査対爆発:クリッピング・エントロピー・スプリアス・リワードによるRLVRの再考
- Authors: Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin,
- Abstract要約: 検証可能な報酬(RLVR)を用いた強化学習における探索・探索トレードオフについて検討する。
最近の研究は、RLVRがLarge Language Models (LLMs) において強力な数学的推論をもたらすことを示唆している。
本研究は、より効果的なRLVRトレーニングの原理として、スプリアス・リワード効果の背景にあるメカニズムを明らかにした。
- 参考スコア(独自算出の注目度): 33.74512650901766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines the exploration-exploitation trade-off in reinforcement learning with verifiable rewards (RLVR), a framework for improving the reasoning of Large Language Models (LLMs). Recent studies suggest that RLVR can elicit strong mathematical reasoning in LLMs through two seemingly paradoxical mechanisms: spurious rewards, which suppress exploitation by rewarding outcomes unrelated to the ground truth, and entropy minimization, which suppresses exploration by pushing the model toward more confident and deterministic outputs, highlighting a puzzling dynamic: both discouraging exploitation and discouraging exploration improve reasoning performance, yet the underlying principles that reconcile these effects remain poorly understood. We focus on two fundamental questions: (i) how policy entropy relates to performance, and (ii) whether spurious rewards yield gains, potentially through the interplay of clipping bias and model contamination. Our results show that clipping bias under spurious rewards reduces policy entropy, leading to more confident and deterministic outputs, while entropy minimization alone is insufficient for improvement. We further propose a reward-misalignment model explaining why spurious rewards can enhance performance beyond contaminated settings. Our findings clarify the mechanisms behind spurious-reward benefits and provide principles for more effective RLVR training.
- Abstract(参考訳): 本稿では,LLVR(Large Language Models, LLMs)を用いた強化学習における探索・探索トレードオフについて検討する。
近年の研究では、RLVRはLLMの強力な数学的推論を、2つの一見パラドックス的なメカニズムによって引き起こすことができることが示唆されている。これは、基礎的真実とは無関係な結果の報奨によって搾取を抑える刺激的な報酬と、モデルをより自信的で決定論的なアウトプットに向けて進めることによる探索を抑えるエントロピーの最小化である。
私たちは2つの基本的な問いに焦点を合わせます。
一 政策のエントロピーがパフォーマンスとどのように関係しているか、及び
二 余剰報酬が利得するか否かは、クリッピングバイアス及びモデル汚染の相互行為による可能性がある。
以上の結果から, クリッピングバイアスは政策エントロピーを低下させ, 信頼性と決定論的アウトプットが向上する一方, エントロピーの最小化だけでは改善には不十分であることが示唆された。
さらに, 汚染された環境を超えて, 素早い報酬が性能を向上できる理由を説明する報奨ミスアライメントモデルを提案する。
本研究は,より効果的なRLVRトレーニングの原理として,スプリアス・リワード効果のメカニズムを明らかにした。
関連論文リスト
- Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - PACR: Progressively Ascending Confidence Reward for LLM Reasoning [55.06373646059141]
我々は、PACR(Progressive Ascending Confidence Reward)を提案する。
PACRは、正解に対するモデルの進化的信念から直接計算された、密集したモデル固有の報酬である。
以上の結果から,RLVRトレーニングはより効果的で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2025-10-25T11:25:35Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration [39.460202867967006]
そこで,本研究では,高密度報酬を付与し,RLに基づくパラダイムにおける探索を増幅するために,固有モチベーションギルド探索比N meThOd foR LLM推論(i-MENTOR)を提案する。
4つの公開データセットにわたる実験は、i-MENTORの有効性を示し、AIME 2024で22.23%改善した。
論文 参考訳(メタデータ) (2025-05-23T08:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。