論文の概要: DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.19895v1
- Date: Mon, 23 Feb 2026 14:37:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.855812
- Title: DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning
- Title(参考訳): DSDR:LLM推論における探索のための2次元多様性正規化
- Authors: Zhongwei Wan, Yun Shen, Zhihao Dou, Donghao Zhou, Yu Zhang, Xin Wang, Hui Shen, Jing Xiong, Chaofan Tao, Zixuan Zhong, Peizhou Huang, Mi Zhang,
- Abstract要約: 検証器を用いた強化学習(RLVR)は、大規模言語モデル(LLM)推論を改善するための中心的なパラダイムであるが、既存の手法では探索が制限されることが多い。
DSDRは,LLM推論の多様性をグローバルおよびカップリングコンポーネントに分解する,大規模多変量正規化強化学習フレームワークである。
我々は,DSDRが有界正規化の下で最適な正当性を保ち,グループベース最適化において情報的学習信号を保持し,原理化されたグローバル-ローカル結合規則を導出することを示す理論的支援を提供する。
- 参考スコア(独自算出の注目度): 34.572542770447974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiers (RLVR) is a central paradigm for improving large language model (LLM) reasoning, yet existing methods often suffer from limited exploration. Policies tend to collapse onto a few reasoning patterns and prematurely stop deep exploration, while conventional entropy regularization introduces only local stochasticity and fails to induce meaningful path-level diversity, leading to weak and unstable learning signals in group-based policy optimization. We propose DSDR, a Dual-Scale Diversity Regularization reinforcement learning framework that decomposes diversity in LLM reasoning into global and coupling components. Globally, DSDR promotes diversity among correct reasoning trajectories to explore distinct solution modes. Locally, it applies a length-invariant, token-level entropy regularization restricted to correct trajectories, preventing entropy collapse within each mode while preserving correctness. The two scales are coupled through a global-to-local allocation mechanism that emphasizes local regularization for more distinctive correct trajectories. We provide theoretical support showing that DSDR preserves optimal correctness under bounded regularization, sustains informative learning signals in group-based optimization, and yields a principled global-to-local coupling rule. Experiments on multiple reasoning benchmarks demonstrate consistent improvements in accuracy and pass@k, highlighting the importance of dual-scale diversity for deep exploration in RLVR. Code is available at https://github.com/SUSTechBruce/DSDR.
- Abstract(参考訳): 検証器を用いた強化学習(RLVR)は、大規模言語モデル(LLM)推論を改善するための中心的なパラダイムである。
政策はいくつかの推論パターンに崩壊し、未熟に深層探査を停止する傾向があり、一方、従来のエントロピー正規化は局所確率性のみを導入し、意味のある経路レベルの多様性を誘導できず、グループベースの政策最適化において弱く不安定な学習信号をもたらす。
DSDRは,LLM推論の多様性をグローバルおよびカップリングコンポーネントに分解する,大規模多変量正規化強化学習フレームワークである。
世界的には、DSDRは正しい推論軌道の多様性を促進し、異なる解モードを探索する。
局所的には、長さ不変のトークンレベルのエントロピー正規化は正しい軌道に制限され、正確性を維持しながら各モード内でエントロピーの崩壊を防ぐ。
この2つのスケールは、より独特な正しい軌道の局所正規化を強調するグローバル-ローカルアロケーション機構によって結合される。
我々は,DSDRが有界正規化の下で最適な正当性を保ち,グループベース最適化において情報的学習信号を保持し,原理化されたグローバル-ローカル結合規則を導出することを示す理論的支援を提供する。
複数の推論ベンチマークの実験では、精度とpass@kが一貫した改善を示し、RLVRの深層探査における二重スケールの多様性の重要性を強調している。
コードはhttps://github.com/SUSTechBruce/DSDRで入手できる。
関連論文リスト
- Beyond Mode Elicitation: Diversity-Preserving Reinforcement Learning via Latent Diffusion Reasoner [23.232437167002406]
LaDi-RL(Ladi-RL)は、連続的な潜伏空間で直接探索を行うフレームワークである。
誘導拡散による探索をモデル化することにより、多段階の分散性をデノベートし、複数の共存解モードを保存する。
コード生成と数学的推論ベンチマークの実験では、個別のRLよりもpass@1とpass@kで一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-02-02T06:26:31Z) - Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents [90.45197506653341]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップ問題を解決するために、検索エンジンのような外部ツールに依存している。
サーチエージェントの軌道は構造的に不均一であり、サーチコールの数、配置、結果の変動は、根本的に異なる応答方向と報酬分布をもたらす。
1つのグローバルベースラインを使用する標準方針勾配法は、私たちが認識し、層間バイアスとして定式化するものに苦しむ。
本稿では,SAN (Stratified Advantage Normalization) の中心成分であるStratified GRPOを提案する。
論文 参考訳(メタデータ) (2025-10-07T17:59:13Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Breaking Imitation Bottlenecks: Reinforced Diffusion Powers Diverse Trajectory Generation [20.106116218594266]
DIVERは、強化学習と拡散ベースの生成を統合するエンドツーエンドの自動運転フレームワークである。
また,DIVERは軌道の多様性を著しく改善し,模倣学習に固有のモード崩壊問題に効果的に対処することを示した。
論文 参考訳(メタデータ) (2025-07-05T14:19:19Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - G$^2$DA: Geometry-Guided Dual-Alignment Learning for RGB-Infrared Person
Re-Identification [3.909938091041451]
RGB-IRの人物再識別は、異種間の興味のある人物を検索することを目的としている。
本稿では,サンプルレベルのモダリティ差に対処するための幾何誘導デュアルアライメント学習フレームワーク(G$2$DA)を提案する。
論文 参考訳(メタデータ) (2021-06-15T03:14:31Z) - Semi-Supervised Learning with Variational Bayesian Inference and Maximum
Uncertainty Regularization [62.21716612888669]
半教師付き学習(SSL)を改善するための2つの一般的な方法を提案する。
第一に、重量摂動(WP)を既存のCR(Consistency regularization)ベースの手法に統合する。
第2の手法は「最大不確実性正規化(MUR)」と呼ばれる新しい整合性損失を提案する。
論文 参考訳(メタデータ) (2020-12-03T09:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。