論文の概要: Diagnosing and Mitigating System Bias in Self-Rewarding RL
- arxiv url: http://arxiv.org/abs/2510.08977v1
- Date: Fri, 10 Oct 2025 03:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.097176
- Title: Diagnosing and Mitigating System Bias in Self-Rewarding RL
- Title(参考訳): 自己回帰RLの診断と緩和システム
- Authors: Chuyi Tan, Peiwen Yuan, Xinglin Wang, Yiwei Li, Shaoxiong Feng, Yueqi Zhang, Jiayi Shi, Ji Zhang, Boyuan Pan, Yao Hu, Kan Li,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の推論能力を拡大するが、継続するデータスケーリングのためにラベル付きサンプルの制限によりボトルネックが残る。
モデルは高信頼のロールアウトを過大評価する傾向があり、バイアスがあり不安定な報酬推定につながる。
本稿では,多種多様なモデルを集約し,報酬とロールアウトの選択に適応する強化学習(RLER)を提案する。
- 参考スコア(独自算出の注目度): 37.83913102876393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) scales the reasoning ability of large language models (LLMs) but remains bottlenecked by limited labeled samples for continued data scaling. Reinforcement learning with intrinsic rewards (RLIR), where the policy model assigns rewards to its own rollouts, enables sustainable scaling in unlabeled settings, yet its performance and stability lag behind RLVR. We trace this gap to a system bias: the model tends to overestimate its high-confidence rollouts, leading to biased and unstable reward estimation. This bias accumulates as training progresses, with deviations from the oracle drifting toward over-reward, causing unstable training. We characterize this bias using three metrics: $\rho_{\text{noise}}$, $\rho_{\text{selfbias}}$, and $\rho_{\text{symbias}}$. We find that $\rho_{\text{noise}}$ and $\rho_{\text{symbias}}$ impact convergence, while $\rho_{\text{selfbias}}$ amplifies both correct and incorrect updates, leading to instability. To mitigate this, we propose reinforcement learning with ensembled rewards (RLER), which aggregates diverse models and adapts reward interpolation and rollout selection. Extensive experiments show that RLER improves by +13.6% over RLIR and is only 3.6% below RLVR, achieving stable scaling on unlabeled samples, making it highly applicable.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の推論能力を拡大するが、継続するデータスケーリングのためにラベル付きサンプルの制限によりボトルネックが残る。
ポリシーモデルが自身のロールアウトに報酬を割り当てる固有報酬付き強化学習(RLIR)は、ラベルのない環境で持続可能なスケーリングを実現するが、そのパフォーマンスと安定性はRLVRより遅れている。
モデルは高信頼のロールアウトを過大評価する傾向があり、バイアスがあり不安定な報酬推定につながる。
このバイアスは訓練が進むにつれて蓄積し、オラクルからの逸脱が逆向きに流れ、不安定な訓練を引き起こす。
このバイアスは、3つのメトリクスを使って特徴づける。 $\rho_{\text{noise}}$, $\rho_{\text{selfbias}}$, $\rho_{\text{symbias}}$。
$\rho_{\text{noise}}$と$\rho_{\text{symbias}}$インパクト収束、$\rho_{\text{selfbias}}$は正しい更新と間違った更新の両方を増幅し、不安定になる。
そこで本研究では,多種多様なモデルを集約し,報酬補間とロールアウト選択に適応する,アンサンブル報酬を用いた強化学習を提案する。
大規模な実験により、RLERはRLIRよりも+13.6%向上し、RLVRよりわずか3.6%下にあり、ラベルなしサンプルの安定なスケーリングを実現し、高い適用性を持つことが示された。
関連論文リスト
- Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - SPARK: Synergistic Policy And Reward Co-Evolving Framework [84.22494672256894]
我々は、RLVR上に構築された効率的でオン・ポリティクス、安定した手法であるSPARK(Synergistic Policy and Reward Co-Evolving Framework)を紹介する。
ロールアウトと正確性データを捨てる代わりに、SPARKはこの貴重な情報をリサイクルし、生成的報酬モデルとしてモデル自体をトレーニングする。
SPARK は複数の LLM モデルと LVLM モデル,および複数の推論,報酬モデル,一般ベンチマークにおいて,大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-26T17:50:12Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [35.27561531876348]
本稿では,LLVRを用いた強化学習が大規模言語モデル(LLM)に及ぼす影響を体系的に検討する。
RLVRは数学的タスクとコーディングタスクの両方の推論境界を拡張可能であることを示す。
本稿では,RLVRのインセンティブメカニズムを説明する理論的枠組みについて述べる。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [43.310209758380886]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文 参考訳(メタデータ) (2025-05-19T08:29:28Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。