Fugu-MT 論文翻訳(概要): On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization

論文の概要: On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization

arxiv url: http://arxiv.org/abs/2505.18830v1
Date: Sat, 24 May 2025 18:58:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.686002
Title: On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization
Title（参考訳）: 群相対的深部補強最適化における負の勾配の影響について
Authors: Wenlong Deng, Yi Ren, Muchen Li, Danica J. Sutherland, Xiaoxiao Li, Christos Thrampoulidis,
Abstract要約: 強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
参考スコア（独自算出の注目度）: 52.76330545825083
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) has become popular in enhancing the reasoning capabilities of large language models (LLMs), with Group Relative Policy Optimization (GRPO) emerging as a widely used algorithm in recent systems. Despite GRPO's widespread adoption, we identify a previously unrecognized phenomenon we term Lazy Likelihood Displacement (LLD), wherein the likelihood of correct responses marginally increases or even decreases during training. This behavior mirrors a recently discovered misalignment issue in Direct Preference Optimization (DPO), attributed to the influence of negative gradients. We provide a theoretical analysis of GRPO's learning dynamic, identifying the source of LLD as the naive penalization of all tokens in incorrect responses with the same strength. To address this, we develop a method called NTHR, which downweights penalties on tokens contributing to the LLD. Unlike prior DPO-based approaches, NTHR takes advantage of GRPO's group-based structure, using correct responses as anchors to identify influential tokens. Experiments on math reasoning benchmarks demonstrate that NTHR effectively mitigates LLD, yielding consistent performance gains across models ranging from 0.5B to 3B parameters.
Abstract（参考訳）: 強化学習 (RL) は, 大規模言語モデル (LLM) の推論能力の向上に成功し, グループ相対政策最適化 (GRPO) が近年のシステムにおいて広く用いられているアルゴリズムとして登場した。 GRPOが広く採用されているにもかかわらず、私たちがこれまで認識していなかった現象である「ラジー・ライリフィア・ディプレースメント(LLD)」を同定し、トレーニング中に正しい反応がわずかに増加するか、あるいは減少する可能性を見出した。この挙動は、負の勾配の影響による直接選好最適化(DPO)において、最近発見された不整合問題を反映している。 GRPOの学習力学を理論的に解析し、LDDの源泉を、同じ強度で不正確な応答における全てのトークンの素早いペナル化として同定する。そこで我々は,LDDに寄与するトークンに対する重み付けを減らし,NTHRと呼ばれる手法を開発した。従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして使用して、影響力のあるトークンを識別する。数学推論ベンチマークの実験により、NTHRはLDDを効果的に軽減し、0.5Bから3Bパラメータの範囲で一貫した性能向上をもたらすことが示された。

関連論文リスト

EDGE-GRPO: Entropy-Driven GRPO with Guided Error Correction for Advantage Diversity [7.818698554631196]
グループ相対政策最適化 (GRPO) アルゴリズムはスパース報酬規則に依存しており、有利な崩壊問題を引き起こす。我々は,textbfEntropy-textbfDriven Advantage と textbfGuided textbfError Correction を採用したEDGE-GRPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-07-29T14:23:58Z)
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文参考訳（メタデータ） (2025-05-18T11:08:32Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation [29.579349371114702]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)のための強化学習(RL)に代わる費用効率の良い代替手段である。粗いフィルタ付き1ラウンドのDPOが数学的推論性能を大幅に向上させることを示す。単純な検証可能な報奨により,計算オーバーヘッドを大幅に低減したRLレベルの性能を実現する。
論文参考訳（メタデータ） (2025-03-17T06:28:25Z)
Gradient Imbalance in Direct Preference Optimization [26.964127989679596]
計算効率のよい勾配再重み付け機構を導入するDPOの目的に対して, 単純かつ効果的な修正である Balanced-DPO を提案する。本実験は, バランスドDPOの有効性を実証し, 理論的結果の検証と, DPOの性能向上の鍵となる勾配不均衡への対処について検証した。
論文参考訳（メタデータ） (2025-02-28T08:47:03Z)
Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文参考訳（メタデータ） (2024-11-12T07:09:44Z)
Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文参考訳（メタデータ） (2024-10-26T14:24:37Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。