論文の概要: Wasserstein Distributionally Robust Regret Optimization for Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2605.00155v1
- Date: Thu, 30 Apr 2026 19:22:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.721104
- Title: Wasserstein Distributionally Robust Regret Optimization for Reinforcement Learning from Human Feedback
- Title(参考訳): 人フィードバックからの強化学習のためのワッサーシュタイン分布ロバストレギュレット最適化
- Authors: Yikai Wang, Shang Liu, Jose Blanchet,
- Abstract要約: 人間のフィードバック(RLHF)からの強化学習のための分布ロバストな後悔最適化(DRRO)を提案する。
DRROは、標準のDROのように最悪のケースの値を悲観する代わりに、最悪のケースの後悔を、同じ妥当な報酬摂動の下での最良のポリシーと比較して悲観的に表現する。
結果は、単純なサンプル結合解釈を持つ実用的なポリシー段階のアルゴリズムに導かれる。
- 参考スコア(独自算出の注目度): 11.841115170669012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has become a core post-training step for aligning large language models, yet the reward signal used in RLHF is only a learned proxy for true human utility. From an operations research perspective, this creates a decision problem under objective misspecification: the policy is optimized against an estimated reward, while deployment performance is determined by an unobserved objective. The resulting gap leads to reward over-optimization, or Goodharting, where proxy reward continues to improve even after true quality deteriorates. Existing mitigations address this problem through uncertainty penalties, pessimistic rewards, or conservative constraints, but they can be computationally burdensome and overly pessimistic. We propose Wasserstein distributionally robust regret optimization (DRRO) for RLHF. Instead of pessimizing worst-case value as in standard DRO, DRRO pessimizes worst-case regret relative to the best policy under the same plausible reward perturbation. We study the promptwise problem through a simplex allocation model and show that, under an $\ell_1$ ambiguity set, the inner worst-case regret admits an exact solution and the optimal policy has a water-filling structure. These results lead to a practical policy-gradient algorithm with a simple sampled-bonus interpretation and only minor changes to PPO/GRPO-style RLHF training. The framework also clarifies theoretically why DRRO is less pessimistic than DRO, and our experiments show that DRRO mitigates over-optimization more effectively than existing baselines while standard DRO is systematically over-pessimistic.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルの整合化のための訓練後の中核的なステップとなっているが、RLHFで使用される報酬信号は真の人間のユーティリティの学習プロキシに過ぎない。
運用研究の観点から、これは客観的な不特定性の下で決定的な問題を生み出し、ポリシーは推定された報酬に対して最適化され、デプロイメントのパフォーマンスは未観測の目的によって決定される。
結果として生じるギャップは、真の品質が悪化した後もプロキシ報酬が改善し続ける、過剰な最適化(Goodharting)につながる。
既存の緩和策は不確実性、悲観的な報酬、保守的な制約を通じてこの問題に対処するが、計算的に負担がかかり、悲観的すぎることもある。
本稿では,RLHF に対する Wasserstein の分布的ロバストな後悔最適化 (DRRO) を提案する。
DRROは、標準のDROのように最悪のケースの値を悲観する代わりに、最悪のケースの後悔を、同じ妥当な報酬摂動の下での最良のポリシーと比較して悲観的に表現する。
簡単な割当モデルを用いて早急な問題を研究し、$\ell_1$ ambiguityセットの下で、内最悪の後悔は正確な解を認め、最適な政策は水充填構造を有することを示す。
これらの結果は、単純なサンプル結合解釈とPPO/GRPOスタイルのRLHFトレーニングへのわずかな変更しか持たない、実用的なポリシー段階のアルゴリズムに繋がる。
また,DRROがDROよりも悲観的でない理由を理論的に明らかにし,標準DROが体系的に過悲観的であるのに対して,DRROは既存のベースラインよりも過剰最適化を効果的に緩和することを示した。
関連論文リスト
- Breaking the Curse of Repulsion: Optimistic Distributionally Robust Policy Optimization for Off-Policy Generative Recommendation [8.112649652437705]
この解決策は、ノイズの多い行動方針に絡み合った潜伏した高品質な分布を厳格に特定することにあると我々は主張する。
このDRO目標に対してハードフィルタが正確な解であることを証明するため,DRPOは発散雑音を厳密に排除しつつ,高品質な動作を最適に回復することができる。
論文 参考訳(メタデータ) (2026-02-11T02:18:27Z) - A Principled Loss Function for Direct Language Model Alignment [0.0]
本稿では,RLHF最適条件から直接導出した新しい損失関数を提案する。
提案した損失は,その差ではなく,基礎となる報酬によって規定される,ロジットの特定の有限値を対象としている。
この固有の安定性は、報酬のハッキングを防ぎ、より効果的なアライメントをもたらす。
論文 参考訳(メタデータ) (2025-08-10T01:56:58Z) - Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization [23.817251267022847]
本稿では,過度な最適化問題を緩和するために,行動対応型政策最適化(BSPO)手法を提案する。
BSPOは強化学習過程におけるOOD反応の発生を減少させる。
実験の結果,BSPOは報酬過度最適化の防止においてベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-23T16:20:59Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。