Fugu-MT 論文翻訳(概要): DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

論文の概要: DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

arxiv url: http://arxiv.org/abs/2505.12366v1
Date: Sun, 18 May 2025 11:08:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.192817
Title: DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization
Title（参考訳）: DisCO:差別的制約付き最適化による大規模推論モデルの強化
Authors: Gang Li, Ming Lin, Tomer Galanti, Zhengzhong Tu, Tianbao Yang,
Abstract要約: グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
参考スコア（独自算出の注目度）: 55.06360285372418
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent success and openness of DeepSeek-R1 have brought widespread attention to Group Relative Policy Optimization (GRPO) as a reinforcement learning method for large reasoning models (LRMs). In this work, we analyze the GRPO objective under a binary reward setting and reveal an inherent limitation of question-level difficulty bias. We also identify a connection between GRPO and traditional discriminative methods in supervised learning. Motivated by these insights, we introduce a new Discriminative Constrained Optimization (DisCO) framework for reinforcing LRMs, grounded in the principle of discriminative learning. The main differences between DisCO and GRPO and its recent variants are: (1) it replaces the group relative objective with a discriminative objective defined by a scoring function; (2) it abandons clipping-based surrogates in favor of non-clipping RL surrogate objectives used as scoring functions; (3) it employs a simple yet effective constrained optimization approach to enforce the KL divergence constraint, ensuring stable training. As a result, DisCO offers notable advantages over GRPO and its variants: (i) it completely eliminates difficulty bias by adopting discriminative objectives; (ii) it addresses the entropy instability in GRPO and its variants through the use of non-clipping scoring functions and a constrained optimization approach; (iii) it allows the incorporation of advanced discriminative learning techniques to address data imbalance, where a significant number of questions have more negative than positive generated answers during training. Our experiments on enhancing the mathematical reasoning capabilities of SFT-finetuned models show that DisCO significantly outperforms GRPO and its improved variants such as DAPO, achieving average gains of 7\% over GRPO and 6\% over DAPO across six benchmark tasks for an 1.5B model.
Abstract（参考訳）: 近年のDeepSeek-R1の成功と開放性は、大規模な推論モデル(LRM)の強化学習手法として、グループ相対政策最適化(GRPO)に広く注目を集めている。本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。また,教師あり学習におけるGRPOと従来の差別的手法の関連性も確認した。これらの知見に触発されて、差別的学習の原則を基礎として、新たな差別的制約最適化(DisCO)フレームワークを導入する。 DisCO と GRPO の主な違いは,(1) 群相対目標をスコアリング関数によって定義された識別対象に置き換える,(2) クリッピングに基づくサロゲートを放棄する,(2) スコアリング関数として使用される非クリッピングRLサロゲート目的を廃止する,(3) 単純で効果的な制約付き最適化アプローチを用いて KL の分散制約を強制し,安定したトレーニングを確実にする,である。その結果、DisCOはGRPOとその変種に対して顕著なアドバンテージを提供している。一差別的目的を採用することにより、難易度バイアスを完全に排除すること。 (II)非クリッピングスコアリング関数と制約付き最適化アプローチを用いることで、GRPOとその変種におけるエントロピー不安定性に対処する。三高度な差別的学習技術を組み込むことで、データ不均衡に対処することができる。 SFTモデルにおける数学的推論能力の向上に関する実験により,DECOはGRPOとDAPOなどの改良型を著しく上回り,GRPO平均7倍,DAPO平均6倍,1.5Bモデルの6つのベンチマークタスクにおいてDAPO平均6倍となることがわかった。

関連論文リスト

Group Causal Policy Optimization for Post-Training Large Language Models [10.791474908144703]
グループ相対政策最適化(GRPO)は、補完性や矛盾といった意味的な相互作用を見越して、候補応答を独立したものとして扱う。本稿では2つの重要なコンポーネントを通じて因果構造を最適化するグループ因果ポリシー最適化(GCPO)を提案する。 GCPOは、複数の推論ベンチマークでGRPOを含む既存のメソッドを一貫して上回っている。
論文参考訳（メタデータ） (2025-08-07T14:17:28Z)
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。 SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文参考訳（メタデータ） (2025-06-19T08:49:13Z)
Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文参考訳（メタデータ） (2025-05-30T15:42:19Z)
On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。 OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文参考訳（メタデータ） (2025-05-29T15:58:04Z)
On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文参考訳（メタデータ） (2025-05-24T18:58:51Z)
DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [29.06340707914799]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文参考訳（メタデータ） (2025-05-21T03:43:29Z)
GVPO: Group Variance Policy Optimization for Large Language Model Post-Training [18.431007107428574]
群変数ポリシー最適化(GVPO)は、KL制約された報酬を直接重みに含める分析解である。 GVPOには2つの大きな利点がある: ユニークな最適解、正確にはKL制約の報酬目的、および柔軟なサンプリング分布をサポートする。 GVPOは、理論的な保証を実用的適応性で統一することにより、信頼性と汎用性を備えたLLMポストトレーニングのための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-04-28T09:02:24Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning [17.544255491384046]
グループポリシーグラディエント(GPG)と呼ばれる最小主義的RLアプローチを提案する。従来の手法とは異なり、GAGは元のRL目標を直接最適化するので、損失関数のサロゲートが不要になる。本手法は補助的な技術や調整に頼ることなく優れた性能を実現する。
論文参考訳（メタデータ） (2025-04-03T12:53:41Z)
Adaptive Group Policy Optimization: Towards Stable Training and Token-Efficient Reasoning [4.325768677318839]
本稿では,2つの単純かつ効果的な修正を含む適応グループ政策最適化(AGPO)を提案する。実験により,本手法は推論ステップにおいてトークンを著しく少なく,より安定したトレーニングと同等あるいは優れたパフォーマンスを実現することが実証された。
論文参考訳（メタデータ） (2025-03-20T08:48:57Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Group Robust Preference Optimization in Reward-free RLHF [23.622835830345725]
そこで本研究では,大規模言語モデルと各グループの嗜好を密に整合させる新しいグループロバスト選好最適化法を提案する。これを達成するため、GRPOは異なるグループの重要性を適応的かつ順次重み付けし、累積損失が悪化したグループを優先順位付けする。我々は,最悪のパフォーマンス群の性能向上,グループ間の損失不均衡の低減,確率精度の向上について検討した。
論文参考訳（メタデータ） (2024-05-30T17:50:04Z)
Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。グループDROフレームワークをQ-Diversityを提案して再構築する。インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文参考訳（メタデータ） (2023-05-20T07:02:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。