論文の概要: DISPO: Enhancing Training Efficiency and Stability in Reinforcement Learning for Large Language Model Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2602.00983v1
- Date: Sun, 01 Feb 2026 02:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.505098
- Title: DISPO: Enhancing Training Efficiency and Stability in Reinforcement Learning for Large Language Model Mathematical Reasoning
- Title(参考訳): DISPO:大規模言語モデル数学的推論のための強化学習における訓練効率と安定性の向上
- Authors: Batuhan K. Karaman, Aditya Rawal, Suhaila Shakiah, Mohammad Ghavamzadeh, Mingyi Hong, Arijit Biswas, Ruida Zhou,
- Abstract要約: DISPOは単純だが効果的なREINFORCEスタイルのアルゴリズムで、正しい反応と間違った反応のために重要なサンプリング重量の上昇と下降を分離する。
DISPO は AIME'24 (55.42% CISPO と 50.21% DAPO) で 61.04% を達成することを示す。
- 参考スコア(独自算出の注目度): 31.369103012768964
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning with verifiable rewards has emerged as a promising paradigm for enhancing the reasoning capabilities of large language models particularly in mathematics. Current approaches in this domain present a clear trade-off: PPO-style methods (e.g., GRPO/DAPO) offer training stability but exhibit slow learning trajectories due to their trust-region constraints on policy updates, while REINFORCE-style approaches (e.g., CISPO) demonstrate improved learning efficiency but suffer from performance instability as they clip importance sampling weights while still permitting non-zero gradients outside the trust-region. To address these limitations, we introduce DISPO, a simple yet effective REINFORCE-style algorithm that decouples the up-clipping and down-clipping of importance sampling weights for correct and incorrect responses, yielding four controllable policy update regimes. Through targeted ablations, we uncover how each regime impacts training: for correct responses, weights >1 increase the average token entropy (i.e., exploration) while weights <1 decrease it (i.e., distillation) -- both beneficial but causing gradual performance degradation when excessive. For incorrect responses, overly restrictive clipping triggers sudden performance collapse through repetitive outputs (when weights >1) or vanishing response lengths (when weights <1). By separately tuning these four clipping parameters, DISPO maintains the exploration-distillation balance while preventing catastrophic failures, achieving 61.04% on AIME'24 (vs. 55.42% CISPO and 50.21% DAPO) with similar gains across various benchmarks and models.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習は、特に数学における大規模言語モデルの推論能力を高めるための有望なパラダイムとして現れてきた。
PPOスタイルの手法(例えばGRPO/DAPO)は、トレーニングの安定性を提供するが、ポリシー更新に対する信頼範囲の制約による学習軌道の遅さを示す一方、REINFORCEスタイルの手法(例えばCISPO)は、学習効率の向上を示す一方で、信頼性領域外の非ゼロ勾配を許容しながら、サンプリング重量の重要さをクリップすることでパフォーマンスの不安定さに悩まされている。
これらの制限に対処するため、D DISPOはシンプルで効果的なREINFORCEスタイルのアルゴリズムで、重要サンプリング重量の上昇と下降を分離し、正解と誤応答に対処し、4つの制御可能なポリシー更新規則を生成する。
適切な反応のために、ウェイト>1は平均トークンエントロピー(探索)を増加させる一方、ウェイト<1はそれを減らす(蒸留) -- いずれも有益であるが、過度に反応すると徐々に性能が低下する。
過度に制限されたクリッピングは、繰り返し出力(重み >1)や応答長(重み <1)によって突然の性能低下を引き起こす。
これらの4つの切断パラメータを個別に調整することで、disPOは破滅的な失敗を防ぎながら、探索と蒸留のバランスを維持し、AIME'24 (vs. 55.42% CISPOと50.21% DAPO) で61.04%を達成する。
関連論文リスト
- Learning from Mistakes: Negative Reasoning Samples Enhance Out-of-Domain Generalization [37.59050823977757]
チェーン・オブ・シンクレット(CoT)軌道上でのSFT(Supervised Fine-tuning)は、大規模言語モデルにおける推論を可能にする一般的なアプローチである。
通常、標準的なプラクティスは、正しい最終回答(陽性)を持つ軌跡を保ちながら、残り(陰性)を無視するのみである。
我々は、このパラダイムが相当な監督を放棄し、オーバーフィッティングを悪化させ、ドメイン外一般化(OOD)を制限すると論じている。
適応型サンプル認識方式であるGain-based LOss Weighting (GLOW)を提案する。
論文 参考訳(メタデータ) (2026-01-08T14:49:10Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Continual Learning, Not Training: Online Adaptation For Agents [0.0]
私たちは、推論(教師)を実行から切り離すデュアルエージェントアーキテクチャATLAS(Adaptive Teaching and Learning System)を紹介します。
ATLASは勾配のない連続学習を実現し、モデルパラメータからシステムレベルのオーケストレーションへの適応の軌跡をシフトさせる。
論文 参考訳(メタデータ) (2025-11-02T21:48:31Z) - Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning [49.290631188365786]
Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。
これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。
この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
論文 参考訳(メタデータ) (2025-10-22T17:41:30Z) - ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:54:24Z) - Stable Reinforcement Learning for Efficient Reasoning [2.838966689544288]
GRPO-$lambda$ は GRPO の効率的で安定な変種である。
正当率を監視して報酬戦略を動的に調整する。
平均精度は1.48%向上し、CoT配列の長さは47.3%削減された。
論文 参考訳(メタデータ) (2025-05-23T16:43:03Z) - NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation [66.36912000442608]
NoisyRolloutは単純だが効果的なデータ拡張手法である。
きれいで適度に歪んだ画像からトレーニングの軌跡を混ぜる。
オープンソースのRLチューニングモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T16:10:13Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。