論文の概要: Reward Model Ensembles Help Mitigate Overoptimization
- arxiv url: http://arxiv.org/abs/2310.02743v2
- Date: Sun, 10 Mar 2024 16:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:58:36.898749
- Title: Reward Model Ensembles Help Mitigate Overoptimization
- Title(参考訳): Reward Model Ensemblesは過度な最適化を支援する
- Authors: Thomas Coste, Usman Anwar, Robert Kirk, David Krueger
- Abstract要約: RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルを微調整して指示に従うための標準手法である。
真の」報酬の完全な表現として、学習された報酬モデルは過度に最適化される。
- 参考スコア(独自算出の注目度): 7.715463015544845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is a standard approach for
fine-tuning large language models to follow instructions. As part of this
process, learned reward models are used to approximately model human
preferences. However, as imperfect representations of the "true" reward, these
learned reward models are susceptible to overoptimization. Gao et al. (2023)
studied this phenomenon in a synthetic human feedback setup with a
significantly larger "gold" reward model acting as the true reward (instead of
humans) and showed that overoptimization remains a persistent problem
regardless of the size of the proxy reward model and training data used. Using
a similar setup, we conduct a systematic study to evaluate the efficacy of
using ensemble-based conservative optimization objectives, specifically
worst-case optimization (WCO) and uncertainty-weighted optimization (UWO), for
mitigating reward model overoptimization when using two optimization methods:
(a) best-of-n sampling (BoN) (b) proximal policy optimization (PPO). We
additionally extend the setup of Gao et al. (2023) to include 25% label noise
to better mirror real-world conditions. Both with and without label noise, we
find that conservative optimization practically eliminates overoptimization and
improves performance by up to 70% for BoN sampling. For PPO, ensemble-based
conservative optimization always reduces overoptimization and outperforms
single reward model optimization. Moreover, combining it with a small KL
penalty successfully prevents overoptimization at no performance cost. Overall,
our results demonstrate that ensemble-based conservative optimization can
effectively counter overoptimization.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルを微調整して指示に従うための標準手法である。
このプロセスの一環として、学習された報酬モデルを使用して、人間の好みをモデル化する。
しかし、「真の」報酬の完全な表現として、これらの学習された報酬モデルは過度に最適化される。
Gao et al. (2023)は、この現象を、(人間の代わりに)真の報酬として働くはるかに大きな「金」報酬モデルを用いて、合成人間のフィードバック設定で研究し、プロキシ報酬モデルのサイズや使用したトレーニングデータに関わらず、過最適化が永続的な問題であることを示した。
同様の設定を用いて,アンサンブルに基づく保守的最適化目標,特に最悪のケース最適化 (WCO) と不確実性重み付け最適化 (UWO) を用いて,2つの最適化手法を用いた報酬モデル過度最適化の緩和効果を評価する。
(a)ベスト・オブ・nサンプリング(BoN)
(b)近位政策最適化(PPO)
また、Gao et al. (2023) のセットアップを25%ラベルノイズを含むように拡張し、現実世界の状況をより良く反映する。
ラベルノイズを伴わずとも、保守的な最適化は過度な最適化を実質的に排除し、BoNサンプリングの性能を最大70%向上させる。
PPOの場合、アンサンブルに基づく保守的な最適化は常に過度な最適化を減らし、単一の報酬モデル最適化よりも優れる。
さらに、小さなKLペナルティと組み合わせることで、パフォーマンスコストを伴わずに過度な最適化を防げる。
全体として,アンサンブルに基づく保守的最適化は過剰最適化に効果的に対抗できることを示した。
関連論文リスト
- Overcoming Reward Overoptimization via Adversarial Policy Optimization
with Lightweight Uncertainty Estimation [50.0151082930949]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - qPOTS: Efficient batch multiobjective Bayesian optimization via Pareto
optimal Thompson sampling [0.0]
多目的最適化を解くためのサンプル効率のアプローチはプロセス・オラクル・サロゲート (GP) を経由する。
本稿では,ランダムGPサンプルのフロンティアから新しい候補を選択する,単純かつ効果的なトンプソンサンプリングに基づくアプローチを提案する。
提案手法は, 実世界の実験だけでなく, 精度, 計算効率の両面において, 高い実験性能を示すものである。
論文 参考訳(メタデータ) (2023-10-24T12:35:15Z) - Optimizer's Information Criterion: Dissecting and Correcting Bias in
Data-Driven Optimization [18.6306170209029]
データ駆動最適化では、得られた決定のサンプル性能は通常、真の性能に対して楽観的なバイアスを生じさせる。
クロスバリデーションのような、このバイアスを修正するための一般的なテクニックは、追加の最適化問題を繰り返し解決する必要があるため、コストがかかる。
我々は一階偏差を直接近似する一般バイアス補正手法を開発し、追加の最適化問題を解く必要はない。
論文 参考訳(メタデータ) (2023-06-16T07:07:58Z) - Estimate-Then-Optimize versus Integrated-Estimation-Optimization versus
Sample Average Approximation: A Stochastic Dominance Perspective [15.832111591654293]
モデルクラスが十分に特定され、十分なデータが存在する場合に、逆の振る舞いが現れることを示す。
また, 標準サンプル平均近似 (SAA) が, 後悔の点において, モデルクラスが適切に特定された場合に, 最悪の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-13T21:54:53Z) - Learning to Generalize Provably in Learning to Optimize [185.71326306329678]
最適化学習(L2O)は、データ駆動アプローチによる最適化設計を自動化することで、人気が高まっている。
現在のL2O法は、少なくとも2回は一般化性能の低下に悩まされることが多い。
我々はこの2つのメトリクスを平坦性を考慮した正規化器としてL2Oフレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-02-22T01:17:31Z) - Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか?
まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。
また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文 参考訳(メタデータ) (2022-03-12T16:07:57Z) - Provable Stochastic Optimization for Global Contrastive Learning: Small
Batch Does Not Harm Performance [53.49803579981569]
各正の対と全ての負の対をアンカーポイントで対比する、コントラスト学習のグローバルな目的を考える。
SimCLRのような既存のメソッドは、十分な結果を得るために大きなバッチサイズを必要とする。
本稿では,SogCLRという表現のグローバルコントラスト学習を解くためのメモリ効率の最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-24T22:16:53Z) - Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。
レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-08-02T02:56:30Z) - BOSH: Bayesian Optimization by Sampling Hierarchically [10.10241176664951]
本稿では,階層的なガウス過程と情報理論の枠組みを組み合わせたBOルーチンを提案する。
BOSHは, ベンチマーク, シミュレーション最適化, 強化学習, ハイパーパラメータチューニングタスクにおいて, 標準BOよりも効率的で高精度な最適化を実現する。
論文 参考訳(メタデータ) (2020-07-02T07:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。