論文の概要: ODRPO: Ordinal Decompositions of Discrete Rewards for Robust Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.12667v2
- Date: Thu, 14 May 2026 18:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:25.957474
- Title: ODRPO: Ordinal Decompositions of Discrete Rewards for Robust Policy Optimization
- Title(参考訳): ODRPO:ロバスト政策最適化のための離散リワードの正規分解
- Authors: Nirmal Patel, Fei Wang, Inderjit S. Dhillon,
- Abstract要約: 大規模言語モデル(LLM)は、AIフィードバック(RLAIF)から強化学習(Reinforcement Learning)を利用する。
これらのドメインは、細粒度で多層的な報酬を提供するために、しばしばベースオートレーダに依存している。
これは、離散的な報酬を順序付きバイナリインジケータのシーケンスに分解することで、評価ノイズを構造的に分離するフレームワークです。
- 参考スコア(独自算出の注目度): 14.900223489465683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The alignment of Large Language Models (LLMs) utilizes Reinforcement Learning from AI Feedback (RLAIF) for non-verifiable domains such as long-form question answering and open-ended instruction following. These domains often rely on LLM based auto-raters to provide granular, multi-tier discrete rewards (e.g., 1-10 rubrics) that are inherently stochastic due to prompt sensitivity and sampling randomness. We empirically verify the stochasticity of auto-raters that can propagate and corrupt standard advantage estimators like GRPO and MaxRL, as a noisy reward samples can skew normalization statistics and degrade the global learning signal. Empirically, sampling more rewards and taking majority voting may reduce the noise and improve performance, but this approach is computationally expensive. To address this bottleneck, we introduce $\textbf{O}$rdinal $\textbf{D}$ecomposition for $\textbf{R}$obust $\textbf{P}$olicy $\textbf{O}$ptimization ($\textbf{ODRPO}$), a framework that structurally isolates evaluation noise by decomposing discrete rewards into a sequence of ordinal binary indicators. By independently computing and accumulating advantages across these progressively challenging success thresholds, ODRPO prevents outlier evaluations from corrupting the global update while establishing an implicit, variance-aware learning curriculum. Empirically, ODRPO achieves robust performance on Qwen2.5-7B and Qwen3-4B models, outperforming baselines with relative improvements of upto 14.8% on FACTS-grounding-v2 and 7.5% on Alpaca-Evals. Critically, these gains are achieved with negligible training-time overhead, as ODRPO requires no additional compute per step compared to standard estimators. Supported by theoretical analysis confirming its optimization stability, ODRPO provides a scalable and robust framework for aligning models within the noisy, discrete evaluation landscape of modern RLAIF.
- Abstract(参考訳): LLM(Large Language Models)のアライメントは、AIフィードバック(RLAIF)からの強化学習(Reinforcement Learning from AI Feedback, RLAIF)を利用して、長文質問応答(long-form question answering)やオープン・エンド・インストラクション(open-ended instruction following)などの検証不可能な領域に適用される。
これらの領域はLLMベースのオートレーダに頼り、素早い感度とサンプリングランダム性のために本質的に確率的である粒度の多層離散報酬(例:1-10ルーブリック)を提供する。
我々は,GRPO や MaxRL などの標準優位推定器を伝播・破壊できるオートレーダの確率性について,雑音の多い報酬サンプルが正規化統計を歪曲し,グローバルな学習信号を劣化させることができることを実証的に検証した。
経験的に、より多くの報酬をサンプリングし、多数決を取ることでノイズを減らし、性能を向上させることができるが、このアプローチは計算的に高価である。
このボトルネックに対処するために、$\textbf{O}$rdinal $\textbf{D}$ecomposition for $\textbf{R}$obust $\textbf{P}$olicy $\textbf{O}$ptimization$\textbf{ODRPO}$というフレームワークを紹介します。
ODRPOは、これらの漸進的に挑戦的な成功しきい値にまたがるアドバンテージを独立に計算し、蓄積することにより、グローバルアップデートを損なうことを防ぐと同時に、暗黙の分散認識学習カリキュラムを確立する。
実証的には、ODRPOはQwen2.5-7BとQwen3-4Bで堅牢な性能を達成し、FACTS-grounding-v2で14.8%、Alpaca-Evalsで7.5%の相対的な改善でベースラインを上回った。
重要な点として、これらのゲインはトレーニング時間のオーバーヘッドを無視して達成される。
ODRPOは最適化の安定性を確認する理論的解析によって支持され、現代のRLAIFのノイズの多い離散的な評価環境の中でモデルを整合させるスケーラブルで堅牢なフレームワークを提供する。
関連論文リスト
- Hölder Policy Optimisation [26.521180498291717]
textbfHlderPOは、一般的なポリシー最適化フレームワークである。
トークンレベルの確率アグリゲーションをHlder平均を介して統一する。
複数の数学ベンチマークにおいて、最先端の平均精度は54.9%である。
論文 参考訳(メタデータ) (2026-05-12T12:45:03Z) - Relative Score Policy Optimization for Diffusion Language Models [29.344961499429257]
拡散大言語モデル(dLLMs)は、並列かつ効率的なテキスト生成への有望な経路を提供する。
抽出可能なシーケンスレベルのログ比の欠如により、既存の手法は高分散ELBOベースの近似に頼らざるを得なくなった。
textbfRelative textbfScore textbfPolicy textbfOptimization (RSPO)を提案する。
論文 参考訳(メタデータ) (2026-05-11T08:58:40Z) - Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States [14.658333957936769]
内部状態価値推定による政策最適化を導入する。
ポリシーフォワードパス中に既に計算されているポリシーモデルの内部信号を用いて、無視可能なコストでベースラインを得る。
軽量プローブは、プロンプトおよび生成された軌道の隠れ状態から期待される検証可能な報酬を予測する。
論文 参考訳(メタデータ) (2026-05-08T10:49:36Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - $V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts [81.48669089692189]
一般値モデル(例えば$V_0.5$)は、コンテキスト内のモデル機能を明示的にエンコードすることで、事前訓練された値推定を実現する。
本稿では,このような値モデルにより予測されるベースラインと,スパースロールアウトから導出される経験的平均とを適応的に融合する$V_0.5$を提案する。
V_0.5$はGRPOとDAPOを大きく上回り、より高速な収束と約10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:41Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。