論文の概要: Diversity-Incentivized Exploration for Versatile Reasoning
- arxiv url: http://arxiv.org/abs/2509.26209v1
- Date: Tue, 30 Sep 2025 13:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.139334
- Title: Diversity-Incentivized Exploration for Versatile Reasoning
- Title(参考訳): バーサタイル推論のための多様性にインセンティブを付与した探索
- Authors: Zican Hu, Shilin Zhang, Yafu Li, Jianhao Yan, Xuyang Hu, Leyang Cui, Xiaoye Qu, Chunlin Chen, Yu Cheng, Zhi Wang,
- Abstract要約: textbfDi-textbf Incentivized Exploration for textbfVersatiltextbfE textbfReasoningを提案する。
- 参考スコア(独自算出の注目度): 63.653348177250756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a crucial paradigm for incentivizing reasoning capabilities in Large Language Models (LLMs). Due to vast state-action spaces and reward sparsity in reasoning tasks, existing methods often struggle with deficient exploration and poor sample efficiency. In the paper, we propose \textbf{DIVER} (\textbf{D}iversity-\textbf{I}ncentivized Exploration for \textbf{V}ersatil\textbf{E} \textbf{R}easoning), an innovative framework that highlights the pivotal role of global sequence-level diversity to incentivize deep exploration for versatile reasoning. We first conduct a primary empirical study to reveal a strong positive correlation between global diversity and reasoning capacity. Building on this insight, we introduce global diversity incentives as an intrinsic reward to promote deep exploration in a semantically structured space. Incorporating the intrinsic reward, we develop a potential-based reward shaping mechanism to preserve optimal policy invariance and design simple heuristics to mitigate possible reward hacking. Experimental results show that DIVER outperforms competitive RLVR baselines with various exploration strategies on both in-domain and out-of-domain tasks, excelling in both Pass@1 and Pass@k evaluations. Our code is available at https://github.com/NJU-RL/DIVER.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)における推論能力のインセンティブとなる重要なパラダイムとして登場した。
膨大な状態行動空間と推論タスクにおける報酬空間のため、既存の手法は不足した探索とサンプル効率の低下に苦しむことが多い。
本稿では,グローバルシーケンスレベルの多様性の重要な役割を浮き彫りにして,多角的推論に対する深い探索を動機付ける,革新的フレームワークである \textbf{DIVER} (\textbf{D}iversity-\textbf{I}ncentivized Exploration for \textbf{V}ersatil\textbf{E} \textbf{R}easoning) を提案する。
まず,グローバルな多様性と推論能力の強い正の相関を明らかにするために,初等的な実証的研究を行った。
この知見に基づいて、意味的に構造化された空間における深層探査を促進するために、本質的な報酬として、グローバルな多様性インセンティブを導入する。
本研究は、本発明の本質的な報酬を組み込んだ、最適政策不変性を維持するための潜在的報酬形成機構を開発し、報酬ハッキングを緩和するための単純なヒューリスティックスを設計する。
実験の結果,DIVERはドメイン内タスクとドメイン外タスクの両方で,競争力のあるRLVRベースラインよりも優れており,Pass@1とPass@kの評価でも優れていた。
私たちのコードはhttps://github.com/NJU-RL/DIVER.comで公開されています。
関連論文リスト
- CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Diversity-Enhanced Reasoning for Subjective Questions [24.896059589693607]
多様性を高めるトレーニングフレームワークであるMultiRole-R1は、様々な役割の観点から推論チェーンを合成する。
ドメイン内精度とドメイン外精度を14.1%と7.64%向上させ、AIME 2024のような高度な数学推論の性能も向上させる。
論文 参考訳(メタデータ) (2025-07-27T09:07:42Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Deep Reinforcement Learning with Hybrid Intrinsic Reward Model [50.53705050673944]
内在的な報酬形成は、ハード探索とスパース・リワードの環境を解決するための一般的なアプローチとして現れている。
故意融合戦略を通じてハイブリッドな内因性報酬を作成するためのフレームワークであるHIRE(Hybrid Intrinsic Reward)を紹介する。
論文 参考訳(メタデータ) (2025-01-22T04:22:13Z) - The impact of intrinsic rewards on exploration in Reinforcement Learning [3.6253617038977226]
州カウントは低次元の観測で最高の探査性能を達成している。
最大エントロピーは影響を受けないため、より堅牢な探査に繋がる。
DIAYNで多様なスキルを学ぶことは、しばしば堅牢性と一般化の改善に結びついているが、MiniGrid環境での探索を促進するものではない。
論文 参考訳(メタデータ) (2025-01-20T15:17:24Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。
RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。
RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - DEIR: Efficient and Robust Exploration through
Discriminative-Model-Based Episodic Intrinsic Rewards [2.09711130126031]
探索は強化学習(RL)の基本的側面であり,その有効性はRLアルゴリズムの性能決定要因である。
近年の研究では、観察における新規性から推定される本質的な報酬による探索を奨励する効果が示されている。
条件付き相互情報項による本質的な報酬を理論的に導出する新手法であるDEIRを提案する。
論文 参考訳(メタデータ) (2023-04-21T06:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。