論文の概要: Where Rollouts Begin: Low-Load, High-Leverage First-Token Diversification for RLVR
- arxiv url: http://arxiv.org/abs/2605.28295v1
- Date: Wed, 27 May 2026 10:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.984298
- Title: Where Rollouts Begin: Low-Load, High-Leverage First-Token Diversification for RLVR
- Title(参考訳): RLVRのローロードと高レベルファーストトークンの多角化
- Authors: Soeun Kim, Albert No,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、ラベル付き軌跡のないモデル推論を訓練する。
RLVRでは、ロールアウトの多様性が中心的なボトルネックとなっている。
本稿では,REFT(Rollout Exploration with First-Token Diversification)を紹介する。REFT(Rollout Exploration with First-Token Diversification)は,RLVRパイプラインの軽量化で,ポリシの上位N$候補からファーストトークンを均一にサンプリングする。
- 参考スコア(独自算出の注目度): 6.149635000057214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) trains reasoning models without labeled trajectories, relying on grouped rollouts to expose the policy to alternative reasoning paths and a verifier to score them. Rollout diversity has accordingly emerged as a central bottleneck in RLVR, with most existing methods broadening exploration through temperature, prefix, or rollout-selection adjustments. We identify a structurally distinguished but overlooked position for broadening this diversity: the first token after the reasoning marker. The policy's first-token distribution exhibits a sharply peaked yet correctness-decoupled phenomenon, and this first token position can broaden the regions a rollout group covers without altering the correctness signal. We introduce REFT (Rollout Exploration with First-Token Diversification), a light addition to the RLVR pipeline that samples first tokens uniformly from the policy's own top-$N$ candidates and allocates rollouts evenly, leaving every other component unchanged. Trained on the resulting diversified rollouts, REFT improves aggregate Pass@1, Pass@8, and Pass@64 over DAPO and GRPO baselines across four base models (0.5B-7B) and three difficulty regimes.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、ラベル付き軌跡のない推論モデルを訓練し、グループ化されたロールアウトに依存して、ポリシーを代替の推論パスに公開し、検証者が評価する。
ロールアウトの多様性は、RLVRにおける中心的なボトルネックとして現れており、既存のほとんどの手法は、温度、プレフィックス、ロールアウト選択の調整を通じて探索を広げている。
我々は、この多様性を拡大するための構造的に区別されているが見過ごされた位置、すなわち、推論マーカーの後の最初のトークンを識別する。
ポリシーの第1トーケン分布は、急激なピーク時に正当性分離現象を示し、この第1トークン位置は、正当性信号を変更することなく、ロールアウト群がカバーする領域を広げることができる。
私たちはREFT(Rollout Exploration with First-Token Diversification)を紹介します。これはRLVRパイプラインの軽量な追加で、ポリシー自身のトップ$N$候補からファーストトークンを均一にサンプリングし、ロールアウトを均等に割り当て、他のすべてのコンポーネントは変わらないままにします。
結果として得られた多彩なロールアウトに基づいて、REFTは4つのベースモデル(0.5B-7B)と3つの難易度でDAPOとGRPOのベースラインに対して、総合的なPass@1、Pass@8、Pass@64を改善した。
関連論文リスト
- Leveraging Error Diversity in Group Rollouts for Reinforcement Learning [61.10980882949414]
Reinforcement Learning from Verifiable Rewards (RLVR) は通常、プロンプト毎に複数のレスポンスをサンプリングし、個々の正確性に基づいてバイナリ報酬を割り当てる。
グループ内エラーの多様性に基づいて,不正なロールアウトに対して有利なシグナルを変調するために,EDAS(Error Diversity Advantage Shaping)を提案する。
EDASは、任意のRLVRアルゴリズムにシームレスに統合できるシンプルなポストホック調整として動作する。
論文 参考訳(メタデータ) (2026-05-17T08:52:31Z) - Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs [65.76530158565903]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)における推論を大幅に改善した。
本研究は,RLVRの分布効果に関する系統的研究である。
RLファインチューニングは, 基数とRLポリシーの間に有意なばらつきを示すトークン分布のごく一部で, 高度にスパースかつ目標となる変化を誘発することがわかった。
論文 参考訳(メタデータ) (2026-03-23T18:17:15Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - RC-GRPO: Reward-Conditioned Group Relative Policy Optimization for Multi-Turn Tool Calling Agents [40.88916135445381]
報酬は希少であり、探索は高価であるため、大規模言語モデルではマルチターンのツールコールは困難である。
一般的なレシピであるSFTとGRPOは、グループ内報酬の変動が低いときに停止する。
本稿では、離散的な報酬トークンを用いて、探索を制御可能なステアリング問題として扱うRC-GRPOを提案する。
論文 参考訳(メタデータ) (2026-02-03T02:47:32Z) - Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards [48.321707628011005]
Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
論文 参考訳(メタデータ) (2025-10-28T11:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。