論文の概要: Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2510.24302v1
- Date: Tue, 28 Oct 2025 11:12:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.088074
- Title: Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards
- Title(参考訳): 検証リワードを用いた強化強化学習におけるトラックレベル探索のためのルックヘッドツリーベースロールアウト
- Authors: Shangyu Xing, Siyuan Wang, Chenyuan Yang, Xinyu Dai, Xiang Ren,
- Abstract要約: Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
- 参考スコア(独自算出の注目度): 48.321707628011005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR), particularly with algorithms like Group Relative Policy Optimization (GRPO), has proven highly effective in enhancing the reasoning capabilities of large language models. However, a critical bottleneck in current pipelines lies in the limited diversity of sampled trajectories during group rollouts. Homogeneous trajectories and their associated rewards would diminish the return signals for policy updates, thereby hindering effective policy learning. This lack of diversity stems primarily from token-level stochastic sampling, where local variations are likely to collapse into near-identical reasoning paths. To address this limitation, we propose Lookahead Tree-Based Rollouts (LATR), a novel rollout strategy designed to explicitly promotes trajectory-level diversity by enforcing branching into different candidate tokens likely to yield distinct continuations. Specifically, LATR iteratively operates in three stages: (1) branching at high-uncertainty generation steps, (2) performing lookahead simulation for each new branch, and (3) pruning branches that exhibits prolonged similarity during simulation. Compared with stochastic Sampling, LATR accelerates policy learning by 131% on average and improves final pass@1 performance by 4.2% on both GRPO and Dynamic sAmpling Policy Optimization (DAPO) algorithms across different reasoning tasks. Our code and data are publicly available at https://github.com/starreeze/latr.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)、特に Group Relative Policy Optimization (GRPO)のようなアルゴリズムは、大規模言語モデルの推論能力を高めるのに非常に効果的であることが証明されている。
しかし、現在のパイプラインにおける重要なボトルネックは、グループロールアウト中のサンプル軌跡の限られた多様性にある。
均質な軌道とその関連する報酬は、政策更新のリターンシグナルを減らし、効果的な政策学習を妨げる。
この多様性の欠如は、主にトークンレベルの確率的サンプリングによるもので、局所的な変動がほぼ同一の推論経路に崩壊する可能性がある。
この制限に対処するため,Lookahead Tree-Based Rollouts (LATR) を提案する。
具体的には,(1)高不確実性生成ステップでの分岐,(2)新しいブランチ毎のルックアヘッドシミュレーション,(3)シミュレーション中に長い類似性を示すプルーニングブランチの3段階を反復的に動作させる。
確率的サンプリングと比較して、LATRはポリシー学習を平均で131%加速し、GRPOとDynamic sAmpling Policy Optimization (DAPO)アルゴリズムの両方で最終パス@1性能を4.2%向上させる。
私たちのコードとデータはhttps://github.com/starreeze/latr.comで公開されています。
関連論文リスト
- One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient [16.05489579792086]
政策勾配法を用いてSFTを誘導する新しい微調整アルゴリズムであるワンツーケンロールアウト(OTR)を導入する。
OTRは、各トークン生成を1ステップ強化学習軌跡として扱うことにより、自己回帰学習プロセスを再構築する。
我々は,OTRを微調整LDMの強力で実用的な代替品として位置づけた。
論文 参考訳(メタデータ) (2025-09-30T14:25:56Z) - Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards [47.557539197058496]
逆推論のためのランダムポリシー評価(ROVER)について紹介する。
ROVERは、一様政体Q値上のソフトマックスから作用をサンプリングする最小限だが高効率なRL法である。
textbfquality(textbf+8.2 on pass@1, textbf+16.8 on pass@256)と textbfdiversity(textbf+17.6%)の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-09-29T16:09:07Z) - Learning More with Less: A Dynamic Dual-Level Down-Sampling Framework for Efficient Policy Optimization [42.2119634259269]
GRPOのような批判のないメソッドは、複数のロールアウトから利点を推定することでメモリ要求を減らすが、徐々に収束する傾向がある。
我々は、ポリシー最適化の効率を改善するために、グループ間で最も有益なサンプルとトークンを優先順位付けする textbfDynamic Dual-Level Down-Sampling (D$3$S) フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T09:36:53Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory
Weighting [29.21380944341589]
我々は、最先端のオフラインRLアルゴリズムが低リターントラジェクトリによって過剰に抑制され、トラジェクトリを最大限活用できないことを示す。
この再加重サンプリング戦略は、任意のオフラインRLアルゴリズムと組み合わせることができる。
私たちは、CQL、IQL、TD3+BCがこの潜在的なポリシー改善の一部しか達成していないのに対して、これらの同じアルゴリズムがデータセットを完全に活用していることを実証的に示しています。
論文 参考訳(メタデータ) (2023-06-22T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。