論文の概要: CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.09675v1
- Date: Thu, 11 Sep 2025 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.513127
- Title: CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models
- Title(参考訳): CDE:大規模言語モデルにおける効率的な強化学習のための好奇心駆動探索
- Authors: Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu,
- Abstract要約: モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
- 参考スコア(独自算出の注目度): 85.315711639214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful paradigm for enhancing the reasoning ability of Large Language Models (LLMs). Yet current RLVR methods often explore poorly, leading to premature convergence and entropy collapse. To address this challenge, we introduce Curiosity-Driven Exploration (CDE), a framework that leverages the model's own intrinsic sense of curiosity to guide exploration. We formalize curiosity with signals from both the actor and the critic: for the actor, we use perplexity over its generated response, and for the critic, we use the variance of value estimates from a multi-head architecture. Both signals serve as an exploration bonus within the RLVR framework to guide the model. Our theoretical analysis shows that the actor-wise bonus inherently penalizes overconfident errors and promotes diversity among correct responses; moreover, we connect the critic-wise bonus to the well-established count-based exploration bonus in RL. Empirically, our method achieves an approximate +3 point improvement over standard RLVR using GRPO/PPO on AIME benchmarks. Further analysis identifies a calibration collapse mechanism within RLVR, shedding light on common LLM failure modes.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムである。
しかし、現在のRLVR法は、しばしば不十分な探索を行い、早めの収束とエントロピー崩壊をもたらす。
この課題に対処するために、我々はCuriosity-Driven Exploration (CDE)を紹介します。
我々はアクターと批評家の双方の信号で好奇心を定式化し、アクターは生成された応答に対してパープレキシティを使用し、批評家はマルチヘッドアーキテクチャによる価値推定のばらつきを利用する。
どちらの信号も、モデルをガイドするRLVRフレームワーク内の探索ボーナスとして機能する。
我々の理論的分析は、アクターのボーナスは本質的に過度に信頼された誤りを罰し、正しい反応の多様性を促進することを示しており、また、批評家のボーナスはRLで確立されたカウントベースの探索ボーナスと結びついている。
AIMEベンチマークのGRPO/PPOを用いて,標準RLVRよりも3点近く向上した。
さらなる解析により、RLVR内のキャリブレーション崩壊機構が特定される。
関連論文リスト
- LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards [51.45138356629732]
我々は,疎解報酬を高密度で検証可能な文脈報酬で増強するためにLongRLVRを導入する。
この補助信号は、正しい接地情報を選択するためのモデルを直接インセンティブ化する。
LongRLVRは、すべてのモデルとベンチマークで標準のRLVRよりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2026-03-02T18:07:53Z) - ContextRL: Enhancing MLLM's Knowledge Discovery Efficiency with Context-Augmented RL [64.77036363086519]
本稿では,これらのボトルネックを克服するためにコンテキスト拡張を利用する新しいフレームワークContextRLを提案する。
提案手法は,プロセス検証のきめ細やかな検証によって偽陽性を除去し,完全な参照ソリューションをコンテキストとして提供する。
また,前述した全負の集団からの正解を「回収」する方針を導いて,報酬モデルが失敗に対する誤報を生成するマルチターンサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2026-02-26T04:55:57Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning [82.91265691530351]
A$2$Dは、検証可能な報酬による強化学習の有効性を高めるための適応能力分解手法である。
まず、蒸留なしでRLVRを介して分解器を訓練し、複雑な質問を単純なサブクエストの集合に分解する。
次に、このデコンパイラを使用して、トレーニングデータセットの各質問に対するサブクエストをアノテートし、サブクエストガイダンスを用いてRLVR下での推論をトレーニングする。
論文 参考訳(メタデータ) (2026-01-31T14:48:23Z) - Evaluating Parameter Efficient Methods for RLVR [38.45552186628944]
RLVR(Reinforcement Learning with Verifiable Rewards)は、言語モデルにインセンティブを与え、検証可能なフィードバックを通じて推論能力を高める。
LoRAのような手法は一般的に使われているが、RLVRのための最適なPEFTアーキテクチャは未同定のままである。
本稿では,DeepSeek-R1-Distill 系における12以上のPEFT手法の数学的推論ベンチマークによる総合評価を行った。
論文 参考訳(メタデータ) (2025-12-29T03:13:08Z) - Exploration vs Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward [33.74512650901766]
検証可能な報酬(RLVR)を用いた強化学習における探索・探索トレードオフについて検討する。
最近の研究は、RLVRがLarge Language Models (LLMs) において強力な数学的推論をもたらすことを示唆している。
本研究は、より効果的なRLVRトレーニングの原理として、スプリアス・リワード効果の背景にあるメカニズムを明らかにした。
論文 参考訳(メタデータ) (2025-12-18T18:59:27Z) - Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning [3.437656066916039]
Reinforcement with Verifiable Rewards (RLVR)は、そのような機能を強化するための有望なアプローチとして登場した。
完全検証解の2つの問題についてRLVRについて検討する。
RLVRは評価基準を改善するが、しばしば新たな推論戦略を得るよりも、表層学習指標を強化することで改善する。
論文 参考訳(メタデータ) (2025-10-30T23:16:02Z) - PACR: Progressively Ascending Confidence Reward for LLM Reasoning [55.06373646059141]
我々は、PACR(Progressive Ascending Confidence Reward)を提案する。
PACRは、正解に対するモデルの進化的信念から直接計算された、密集したモデル固有の報酬である。
以上の結果から,RLVRトレーニングはより効果的で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2025-10-25T11:25:35Z) - Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models [33.214586668992965]
検証可能な報酬(RLVR)による強化学習は、数学的およびマルチモーダル推論において驚くべき成果を上げている。
汎用知識のための動的客観的リウェイトを用いたRECAP-aリプレイ戦略を提案する。
本手法はエンド・ツー・エンドであり,既存のRLVRパイプラインに適用可能である。
論文 参考訳(メタデータ) (2025-10-24T19:08:48Z) - Reinforcement Learning with Rubric Anchors [26.9944158097067]
RLVR(Reinforcement Learning from Verifiable Rewards)は、大規模言語モデル(LLM)の強化のための強力なパラダイムとして登場した。
我々はRLVRパラダイムを、ルーブリックベースの報酬を統合することで、オープンエンドタスクに拡張する。
私たちは、これまでで最大のルーリック報酬システムを構築しており、人間やLLM、ハイブリッドな人間とLLMのコラボレーションから1万以上のルーリックを集めています。
論文 参考訳(メタデータ) (2025-08-18T10:06:08Z) - The Invisible Leash: Why RLVR May Not Escape Its Origin [48.915013455847856]
大規模推論モデルの最近の進歩は、AI能力を向上するための有望な方法として、Reinforcement Learning with Verifiable Rewards(RLVR)を強調している。
本研究は,RLVRの潜在的な限界に対する新たな洞察を提供する理論的,実証的研究である。
エントロピー・リワードのトレードオフは、RLVRが精度を確実に向上させる一方で、探索が徐々に狭くなり、正しく表現されていない解を見落としてしまう可能性がある。
論文 参考訳(メタデータ) (2025-07-20T07:04:08Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [32.99709073885827]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力向上のための,有望なパラダイムとして登場した。
しかしながら、RLVRで調整されたモデルは、ソリューションフィリングのための$Pass@K$メトリックでベースモデルよりもパフォーマンスが低いことが多い。
より正確な評価基準である$CoT$-$Pass@K$を導入する。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。