論文の概要: Overcoming Reward Overoptimization via Adversarial Policy Optimization
with Lightweight Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2403.05171v1
- Date: Fri, 8 Mar 2024 09:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:15:45.581256
- Title: Overcoming Reward Overoptimization via Adversarial Policy Optimization
with Lightweight Uncertainty Estimation
- Title(参考訳): 軽量不確実性推定による逆最適化の克服
- Authors: Xiaoying Zhang, Jean-Francois Ton, Wei Shen, Hongning Wang, Yang Liu
- Abstract要約: AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
- 参考スコア(独自算出の注目度): 50.0151082930949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Adversarial Policy Optimization (AdvPO), a novel solution to the
pervasive issue of reward over-optimization in Reinforcement Learning from
Human Feedback (RLHF) for Large Language Models (LLMs). Over-optimization
occurs when a reward model serves as an imperfect proxy for human preference,
and RL-driven policy optimization erroneously exploits reward inaccuracies. In
this paper, we begin by introducing a lightweight way to quantify uncertainties
in rewards, relying solely on the last layer embeddings of the reward model,
without the need for computationally expensive reward ensembles. AdvPO then
addresses a distributionally robust optimization problem centred around the
confidence interval of the reward model's predictions for policy improvement.
Through comprehensive experiments on the Anthropic HH and TL;DR summarization
datasets, we illustrate the efficacy of AdvPO in mitigating the
overoptimization issue, consequently resulting in enhanced performance as
evaluated through human-assisted evaluation.
- Abstract(参考訳): 本稿では,大規模言語モデル(llm)のための人的フィードバック(rlhf)からの強化学習における報酬過剰最適化問題に対する新しい解決法であるadvpoを提案する。
過度な最適化は、報酬モデルが人間の嗜好の不完全なプロキシとして機能し、RL駆動のポリシー最適化が誤って報酬の不正確さを利用する場合に発生する。
本稿では,報酬モデルの最終層埋め込みのみに依存して,計算量的に高価な報酬アンサンブルを必要とせず,報酬の不確かさを定量化する軽量な方法を導入することから始める。
AdvPOは、政策改善のための報酬モデルの予測の信頼区間を中心とする分布的に堅牢な最適化問題に対処する。
人類のHHとTL;DRの要約データセットに関する総合的な実験を通じて、過最適化問題を緩和するAdvPOの有効性を説明し、その結果、人間による評価により性能が向上した。
関連論文リスト
- Confronting Reward Overoptimization for Diffusion Models: A Perspective
of Inductive and Primacy Biases [81.49800426169632]
拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。
本稿では,中間段階の時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。
実験結果から,報酬過小評価を緩和するアルゴリズムの有効性が示された。
論文 参考訳(メタデータ) (2024-02-13T15:55:41Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Reward Model Ensembles Help Mitigate Overoptimization [7.715463015544845]
RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルを微調整して指示に従うための標準手法である。
真の」報酬の完全な表現として、学習された報酬モデルは過度に最適化される。
論文 参考訳(メタデータ) (2023-10-04T11:34:22Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Sample-efficient Iterative Lower Bound Optimization of Deep Reactive
Policies for Planning in Continuous MDPs [27.41101006357176]
本研究では,最小化-最大化の観点から反復的に最適化する。
w.r.t.は局所的に厳密な下界の目的である。
反復的下界最適化(ILBO)としての学習の新たな定式化は、(i)各ステップが全体目標よりも構造的に容易に最適化できるため、特に魅力的である。
実験的な評価により、ILBOは最先端のプランナーよりもはるかに試料効率が高いことが確認された。
論文 参考訳(メタデータ) (2022-03-23T19:06:16Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。