論文の概要: Deep Dense Exploration for LLM Reinforcement Learning via Pivot-Driven Resampling
- arxiv url: http://arxiv.org/abs/2602.14169v1
- Date: Sun, 15 Feb 2026 14:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.681407
- Title: Deep Dense Exploration for LLM Reinforcement Learning via Pivot-Driven Resampling
- Title(参考訳): Pivot-Driven ResamplingによるLLM強化学習のための深度探索
- Authors: Yiran Guo, Zhongjian Qiao, Yingqi Xie, Jie Liu, Dan Ye, Ruiqing Zhang, Shuang Qiu, Lijie Xu,
- Abstract要約: Deep Dense Exploration (DDE) は、$textitpivots$-deep、リカバリ可能な状態を軌道上で探索する戦略である。
我々の手法はGRPOや木に基づく手法、その他の強力なベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 13.584783462913535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective exploration is a key challenge in reinforcement learning for large language models: discovering high-quality trajectories within a limited sampling budget from the vast natural language sequence space. Existing methods face notable limitations: GRPO samples exclusively from the root, saturating high-probability trajectories while leaving deep, error-prone states under-explored. Tree-based methods blindly disperse budgets across trivial or unrecoverable states, causing sampling dilution that fails to uncover rare correct suffixes and destabilizes local baselines. To address this, we propose Deep Dense Exploration (DDE), a strategy that focuses exploration on $\textit{pivots}$-deep, recoverable states within unsuccessful trajectories. We instantiate DDE with DEEP-GRPO, which introduces three key innovations: (1) a lightweight data-driven utility function that automatically balances recoverability and depth bias to identify pivot states; (2) local dense resampling at each pivot to increase the probability of discovering correct subsequent trajectories; and (3) a dual-stream optimization objective that decouples global policy learning from local corrective updates. Experiments on mathematical reasoning benchmarks demonstrate that our method consistently outperforms GRPO, tree-based methods, and other strong baselines.
- Abstract(参考訳): 大規模な言語モデルの強化学習において、効果的な探索は重要な課題である。
GRPOサンプルは根からのみ抽出され、高い確率軌道を飽和させ、深い、エラーを起こしやすい状態は未調査のまま残されている。
ツリーベースの手法は、自明な状態や保存不能な状態に予算を盲目的に分散させ、希少な正確な接尾辞の発見に失敗するサンプリング希釈を引き起こし、局所的な基準線を不安定にする。
この問題に対処するため,我々は$\textit{pivots}$-deep,recovery states in failure trajectoriesに焦点をあてたDeep Dense Exploration (DDE)を提案する。
我々はDDEをDEP-GRPOでインスタンス化し、(1)ピボット状態を特定するために回復可能性と深度バイアスを自動的にバランスする軽量なデータ駆動ユーティリティ関数、(2)ピボット毎の局所的な再サンプリングにより、その後の正しい軌跡を発見する確率を高めること、(3)局所的な修正更新からグローバルポリシー学習を分離するデュアルストリーム最適化目標の3つの重要なイノベーションを紹介します。
数学的推論ベンチマーク実験により,本手法はGRPO,木に基づく手法,その他の強力なベースラインを一貫して上回っていることが示された。
関連論文リスト
- Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck [20.113524065146674]
イテレーティブ・インフォメーション・ボトルネック(IIB-LPO)は、トークンの統計的摂動から推論軌道のトポロジカル分岐へと探索を移す新しいアプローチである。
IIB-LPOは最先端のパフォーマンスを達成し、従来の手法を最大5.3%の精度と7.4%の多様性で上回っている。
論文 参考訳(メタデータ) (2026-01-09T15:46:40Z) - Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards [48.321707628011005]
Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
論文 参考訳(メタデータ) (2025-10-28T11:12:02Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - DDL: A Large-Scale Datasets for Deepfake Detection and Localization in Diversified Real-World Scenarios [51.916287988122406]
本稿では,$textbf1.4M+$forgedサンプルを含む大規模ディープフェイク検出およびローカライゼーション(textbfDDL)データセットを提案する。
我々のDDLは、複雑な現実世界の偽造のより困難なベンチマークを提供するだけでなく、次世代のディープフェイク検出、ローカライゼーション、解釈可能性メソッドを構築するための重要なサポートも提供しています。
論文 参考訳(メタデータ) (2025-06-29T15:29:03Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Accelerating Inverse Learning via Intelligent Localization with
Exploratory Sampling [1.5976506570992293]
逆問題の解決は 物質と薬物発見の 長年の課題です
近年,逆問題の解法として深部生成モデルが提案されている。
逆学習を高速化する新しい手法(iPage)を提案する。
論文 参考訳(メタデータ) (2022-12-02T08:00:04Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。