論文の概要: CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.09675v1
- Date: Thu, 11 Sep 2025 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.513127
- Title: CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models
- Title(参考訳): CDE:大規模言語モデルにおける効率的な強化学習のための好奇心駆動探索
- Authors: Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu,
- Abstract要約: モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
- 参考スコア(独自算出の注目度): 85.315711639214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful paradigm for enhancing the reasoning ability of Large Language Models (LLMs). Yet current RLVR methods often explore poorly, leading to premature convergence and entropy collapse. To address this challenge, we introduce Curiosity-Driven Exploration (CDE), a framework that leverages the model's own intrinsic sense of curiosity to guide exploration. We formalize curiosity with signals from both the actor and the critic: for the actor, we use perplexity over its generated response, and for the critic, we use the variance of value estimates from a multi-head architecture. Both signals serve as an exploration bonus within the RLVR framework to guide the model. Our theoretical analysis shows that the actor-wise bonus inherently penalizes overconfident errors and promotes diversity among correct responses; moreover, we connect the critic-wise bonus to the well-established count-based exploration bonus in RL. Empirically, our method achieves an approximate +3 point improvement over standard RLVR using GRPO/PPO on AIME benchmarks. Further analysis identifies a calibration collapse mechanism within RLVR, shedding light on common LLM failure modes.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムである。
しかし、現在のRLVR法は、しばしば不十分な探索を行い、早めの収束とエントロピー崩壊をもたらす。
この課題に対処するために、我々はCuriosity-Driven Exploration (CDE)を紹介します。
我々はアクターと批評家の双方の信号で好奇心を定式化し、アクターは生成された応答に対してパープレキシティを使用し、批評家はマルチヘッドアーキテクチャによる価値推定のばらつきを利用する。
どちらの信号も、モデルをガイドするRLVRフレームワーク内の探索ボーナスとして機能する。
我々の理論的分析は、アクターのボーナスは本質的に過度に信頼された誤りを罰し、正しい反応の多様性を促進することを示しており、また、批評家のボーナスはRLで確立されたカウントベースの探索ボーナスと結びついている。
AIMEベンチマークのGRPO/PPOを用いて,標準RLVRよりも3点近く向上した。
さらなる解析により、RLVR内のキャリブレーション崩壊機構が特定される。
関連論文リスト
- Reinforcement Learning with Rubric Anchors [26.9944158097067]
RLVR(Reinforcement Learning from Verifiable Rewards)は、大規模言語モデル(LLM)の強化のための強力なパラダイムとして登場した。
我々はRLVRパラダイムを、ルーブリックベースの報酬を統合することで、オープンエンドタスクに拡張する。
私たちは、これまでで最大のルーリック報酬システムを構築しており、人間やLLM、ハイブリッドな人間とLLMのコラボレーションから1万以上のルーリックを集めています。
論文 参考訳(メタデータ) (2025-08-18T10:06:08Z) - The Invisible Leash: Why RLVR May Not Escape Its Origin [48.915013455847856]
大規模推論モデルの最近の進歩は、AI能力を向上するための有望な方法として、Reinforcement Learning with Verifiable Rewards(RLVR)を強調している。
本研究は,RLVRの潜在的な限界に対する新たな洞察を提供する理論的,実証的研究である。
エントロピー・リワードのトレードオフは、RLVRが精度を確実に向上させる一方で、探索が徐々に狭くなり、正しく表現されていない解を見落としてしまう可能性がある。
論文 参考訳(メタデータ) (2025-07-20T07:04:08Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [32.99709073885827]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力向上のための,有望なパラダイムとして登場した。
しかしながら、RLVRで調整されたモデルは、ソリューションフィリングのための$Pass@K$メトリックでベースモデルよりもパフォーマンスが低いことが多い。
より正確な評価基準である$CoT$-$Pass@K$を導入する。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。