論文の概要: Noise-corrected GRPO: From Noisy Rewards to Unbiased Gradients
- arxiv url: http://arxiv.org/abs/2510.18924v2
- Date: Mon, 27 Oct 2025 13:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.598208
- Title: Noise-corrected GRPO: From Noisy Rewards to Unbiased Gradients
- Title(参考訳): 雑音補正GRPO:ノイズリワードから非バイアス勾配へ
- Authors: Omar El Mansouri, Mohamed El Amine Seddik, Salem Lahlou,
- Abstract要約: この研究は、現代のRLHFを用いた教師あり学習からのラベルノイズ補正を橋渡しする。
理論的な洞察と、ノイズの多い現実世界の展開のための実用的なアルゴリズムの両方を提供する。
- 参考スコア(独自算出の注目度): 8.43115247753727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) or verifiable rewards (RLVR), the standard paradigm for aligning LLMs or building recent SOTA reasoning models, is highly sensitive to noise from inconsistent or erroneous rewards. Yet, the interaction between such noise and widely used group-based policy optimization methods remains underexplored. We introduce a noise-robust Group Relative Policy Optimization (GRPO) and Done Right GRPO (Dr.GRPO) framework that explicitly models reward corruption as Bernoulli noise. Our method applies noise correction after estimating reward flip probabilities to debias the learning signal, yielding provably unbiased gradient estimates. Theoretical analysis shows that group-based methods inherently mitigate individual-level noise, and our correction strategy amplifies this robustness. Empirically, we observe consistent improvements across math and code tasks when applying our noise correction to standard reward model usage, with particular gains of up to 6.7 percentage points in accuracy on math tasks and 1.5 on code tasks under realistic reward model conditions. This work bridges label-noise correction from supervised learning with modern RLHF, offering both theoretical insights and a practical algorithm for noisy real-world deployment.
- Abstract(参考訳): 人間のフィードバック(RLHF)や検証可能な報酬(RLVR)からの強化学習は、LLMの整列や最近のSOTA推論モデル構築の標準パラダイムであり、矛盾や誤った報酬からのノイズに非常に敏感である。
しかし、そのようなノイズと広く使われているグループベースのポリシー最適化手法との相互作用はいまだ未解明である。
本稿では,Bernoulli ノイズとして汚職の報奨を明示的にモデル化したノイズロバストグループ相対政策最適化 (GRPO) と Done Right GRPO (Dr.GRPO) フレームワークを紹介する。
本手法は,報奨フリップ確率を推定して雑音補正を行い,学習信号の偏りを推定し,確率的に偏りのない勾配推定を行う。
理論的解析により,グループベース手法は個人レベルのノイズを本質的に軽減し,補正戦略はこのロバスト性を増幅することが示された。
実験により,従来の報奨モデルに雑音補正を適用した場合,数学タスクの精度が最大6.7%,現実的な報奨モデル条件下でのコードタスクが1.5と,数学タスクとコードタスクの間で一貫した改善が見られた。
この研究は、現代のRLHFで教師付き学習からラベルノイズの修正をブリッジし、理論的な洞察と実世界のノイズの多い展開のための実用的なアルゴリズムを提供する。
関連論文リスト
- Latent Collective Preference Optimization: A General Framework for Robust LLM Alignment [7.1259212876994695]
雑音データから潜在集団コンセンサスを学習するためにLCPO(Latent Collective Preference Optimization)を導入する。
本実験はLCPOの汎用フレームワークとしての有効性を実証し、4つの最先端アライメントアルゴリズムを一貫して強化した。
Mistral と Llama 3 モデルに適用すると、LCPO を拡張した手法は AlpacaEval 2 と Arena-Hard でかなりの利得を達成し、両方のベンチマークで最大 7.0 % 改善した。
論文 参考訳(メタデータ) (2025-09-29T01:17:49Z) - VRPO: Rethinking Value Modeling for Robust RL Training under Noisy Supervision [29.848085169124605]
不安定な信号を吸収し、より信頼性の高い優位性推定を可能にすることにより、雑音の緩和に強い値モデルが不可欠であることを示す。
ノイズの多い監督下での堅牢なPPOトレーニングのための価値中心のフレームワークであるVRPOを提案する。
論文 参考訳(メタデータ) (2025-08-05T04:05:15Z) - Machine Unlearning for Robust DNNs: Attribution-Guided Partitioning and Neuron Pruning in Noisy Environments [5.8166742412657895]
ディープニューラルネットワーク(DNN)は、さまざまなドメインで顕著な成功を収めているが、ノイズやトレーニングデータによってそのパフォーマンスが著しく低下する可能性がある。
本稿では,帰属誘導型データパーティショニング,識別的ニューロンプルーニング,およびノイズのあるサンプルの影響を軽減するための微調整を目的とした新しいフレームワークを提案する。
CIFAR-10の標準リトレーニングよりも約10%の絶対精度向上を実現し,ラベルノイズを注入した。
論文 参考訳(メタデータ) (2025-06-13T09:37:11Z) - On Symmetric Losses for Robust Policy Optimization with Noisy Preferences [55.8615920580824]
この研究は、人間からのフィードバックから強化学習のコアコンポーネントである報酬モデリングに焦点を当てている。
本稿では, 騒音条件下でのロバストな政策最適化のための基本的枠組みを提案する。
対称的損失は,ノイズラベルの下でも政策最適化を成功させることができることを証明した。
論文 参考訳(メタデータ) (2025-05-30T15:30:43Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Label Noise: Correcting the Forward-Correction [0.0]
ラベルノイズのあるデータセット上でニューラルネットワーク分類器を訓練することは、ノイズのあるラベルに過度に適合するリスクをもたらす。
ラベルノイズによる過度適合に対処する手法を提案する。
本研究は, オーバーフィッティングを緩和するために, トレーニング損失に低い限界を課すことを提案する。
論文 参考訳(メタデータ) (2023-07-24T19:41:19Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。