論文の概要: Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration
- arxiv url: http://arxiv.org/abs/2508.13755v2
- Date: Thu, 04 Sep 2025 15:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:58.990889
- Title: Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration
- Title(参考訳): RLVRにおける奥行きの相乗効果:適応探索によるLLM推論ゲインのアンロック
- Authors: Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Dongchun Xie, Yiwei Wang, Xiaodan Liang, Jing Tang,
- Abstract要約: Reinforcement Learning with Verifiable Reward (RLVR)は、大規模言語モデルにおける推論能力をアンロックするための強力なパラダイムとして登場した。
RLVRの完全なポテンシャルは、モデルがサンプリングできる最も難しい深さと、単一のイテレーションで消費されるインスタンスの数という2つの未探索の次元によって妨げられていることを示す。
本稿では,多段ロールアウトによる難易度再重み付けを行うDARS(Difficulty Adaptive Rollout Smpling)を提案する。
- 参考スコア(独自算出の注目度): 61.350777880329815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Reward (RLVR) has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models, yet its full potential is hindered by two under-explored dimensions: Depth-the hardest problem a model can sample; Breadth-the number of instances consumed in a single iteration. We dissect the popular GRPO algorithm and reveal a systematic bias: the cumulative-advantage disproportionately weights samples with medium accuracy, while down-weighting the low-accuracy instances that are crucial for pushing reasoning boundaries. To rectify the depth neglect, we introduce Difficulty Adaptive Rollout Sampling (DARS), which re-weights hard problems through targeted multi-stage rollouts, thereby increasing the number of positive rollouts for hard problems. Empirically, naively enlarging rollout size only accelerates convergence and even hurts Pass@K. Our DARS, in contrast, delivers consistent Pass@K gains without extra inference cost at convergence. Just as we adaptively expanded the depth of exploration, we now ask whether aggressively scaling the breadth of training data can further amplify reasoning gains. To this end, we intensely scale batch size and replace PPO's mini-batch iterations with full-batch updates over multiple epochs. Increasing breadth significantly enhances Pass@1 performance. Large-breadth training sustains high token-level entropy, indicating continued exploration and reduced gradient noise. We further present DARS-B, which augments DARS with large breadth, and demonstrate simultaneous gains in Pass@K and Pass@1. The results confirm that breadth and adaptive exploration across depth operate as orthogonal dimensions in RLVR, which are key to unleashing the reasoning power of RLVR.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Reward)は、大規模言語モデルで推論機能をアンロックするための強力なパラダイムとして登場したが、その完全なポテンシャルは、探索されていない2つの次元によって妨げられている。
累積アドバンテージは標本を中程度の精度で重み付けする一方で、推論境界を推し進める上で重要な低精度のインスタンスを重み付けする。
深度無視を是正するために,多段ロールアウトを対象とするハード問題を再重み付けするDifficulty Adaptive Rollout Smpling (DARS)を導入する。
実のところ、ロールアウトサイズを大きくするだけでもコンバージェンスを加速し、Pass@Kを損なう。
対照的に、DARSは収束時に余分な推論コストなしで、一貫したPass@Kゲインを提供する。
探索の深さを適応的に拡大するのと同じように、トレーニングデータの幅を積極的にスケーリングすることで、推論の利益をさらに増幅できるかどうかを問うようになりました。
この目的のために、バッチサイズを大幅に拡大し、PPOのミニバッチイテレーションを複数のエポック上でフルバッチ更新に置き換えました。
幅の増大はPass@1パフォーマンスを大幅に向上させる。
大きなブレッドストレーニングは高いトークンレベルのエントロピーを維持し、継続的な探索と勾配雑音の低減を示す。
さらに,DARSを広い幅で拡張するDARS-Bを提示し,Pass@KとPass@1の同時利得を示す。
その結果,RLVRの正交次元として深度を横断する広帯域・適応探索が機能し,RLVRの推論力を解き放つ鍵となることが確認された。
関連論文リスト
- Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards [16.22162269278471]
PSN-RLVRは、ロールアウト生成前にポリシーパラメータを摂動させ、時間的に一貫した軌道レベルの探索を誘導する。
本稿では,意味的多様性と正規化自己確実性を組み合わせた軽量サロゲートによって駆動される,計算効率のよいリアルタイム適応ノイズスケジューラを提案する。
論文 参考訳(メタデータ) (2026-01-30T13:10:30Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - BroRL: Scaling Reinforcement Learning via Broadened Exploration [88.69554867685243]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルにおいて複雑な推論能力を解き放つ鍵となる要素として登場した。
最近のProRLは、トレーニングステップの数を増やすことで、RLのスケーリングを約束している。
RL, BroR-Lineasing the followingary paradigm for scaling RL, BroR-Lincreasing the rollouts per example to hundreds。
論文 参考訳(メタデータ) (2025-10-01T17:59:02Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation [66.36912000442608]
NoisyRolloutは単純だが効果的なデータ拡張手法である。
きれいで適度に歪んだ画像からトレーニングの軌跡を混ぜる。
オープンソースのRLチューニングモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T16:10:13Z) - Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。
我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。