論文の概要: Reward Model Ensembles Help Mitigate Overoptimization
- arxiv url: http://arxiv.org/abs/2310.02743v2
- Date: Sun, 10 Mar 2024 16:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:58:36.898749
- Title: Reward Model Ensembles Help Mitigate Overoptimization
- Title(参考訳): Reward Model Ensemblesは過度な最適化を支援する
- Authors: Thomas Coste, Usman Anwar, Robert Kirk, David Krueger
- Abstract要約: RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルを微調整して指示に従うための標準手法である。
真の」報酬の完全な表現として、学習された報酬モデルは過度に最適化される。
- 参考スコア(独自算出の注目度): 7.715463015544845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is a standard approach for
fine-tuning large language models to follow instructions. As part of this
process, learned reward models are used to approximately model human
preferences. However, as imperfect representations of the "true" reward, these
learned reward models are susceptible to overoptimization. Gao et al. (2023)
studied this phenomenon in a synthetic human feedback setup with a
significantly larger "gold" reward model acting as the true reward (instead of
humans) and showed that overoptimization remains a persistent problem
regardless of the size of the proxy reward model and training data used. Using
a similar setup, we conduct a systematic study to evaluate the efficacy of
using ensemble-based conservative optimization objectives, specifically
worst-case optimization (WCO) and uncertainty-weighted optimization (UWO), for
mitigating reward model overoptimization when using two optimization methods:
(a) best-of-n sampling (BoN) (b) proximal policy optimization (PPO). We
additionally extend the setup of Gao et al. (2023) to include 25% label noise
to better mirror real-world conditions. Both with and without label noise, we
find that conservative optimization practically eliminates overoptimization and
improves performance by up to 70% for BoN sampling. For PPO, ensemble-based
conservative optimization always reduces overoptimization and outperforms
single reward model optimization. Moreover, combining it with a small KL
penalty successfully prevents overoptimization at no performance cost. Overall,
our results demonstrate that ensemble-based conservative optimization can
effectively counter overoptimization.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルを微調整して指示に従うための標準手法である。
このプロセスの一環として、学習された報酬モデルを使用して、人間の好みをモデル化する。
しかし、「真の」報酬の完全な表現として、これらの学習された報酬モデルは過度に最適化される。
Gao et al. (2023)は、この現象を、(人間の代わりに)真の報酬として働くはるかに大きな「金」報酬モデルを用いて、合成人間のフィードバック設定で研究し、プロキシ報酬モデルのサイズや使用したトレーニングデータに関わらず、過最適化が永続的な問題であることを示した。
同様の設定を用いて,アンサンブルに基づく保守的最適化目標,特に最悪のケース最適化 (WCO) と不確実性重み付け最適化 (UWO) を用いて,2つの最適化手法を用いた報酬モデル過度最適化の緩和効果を評価する。
(a)ベスト・オブ・nサンプリング(BoN)
(b)近位政策最適化(PPO)
また、Gao et al. (2023) のセットアップを25%ラベルノイズを含むように拡張し、現実世界の状況をより良く反映する。
ラベルノイズを伴わずとも、保守的な最適化は過度な最適化を実質的に排除し、BoNサンプリングの性能を最大70%向上させる。
PPOの場合、アンサンブルに基づく保守的な最適化は常に過度な最適化を減らし、単一の報酬モデル最適化よりも優れる。
さらに、小さなKLペナルティと組み合わせることで、パフォーマンスコストを伴わずに過度な最適化を防げる。
全体として,アンサンブルに基づく保守的最適化は過剰最適化に効果的に対抗できることを示した。
関連論文リスト
- Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - qPOTS: Efficient batch multiobjective Bayesian optimization via Pareto
optimal Thompson sampling [0.0]
多目的最適化を解くためのサンプル効率のアプローチはプロセス・オラクル・サロゲート (GP) を経由する。
本稿では,ランダムGPサンプルのフロンティアから新しい候補を選択する,単純かつ効果的なトンプソンサンプリングに基づくアプローチを提案する。
提案手法は, 実世界の実験だけでなく, 精度, 計算効率の両面において, 高い実験性能を示すものである。
論文 参考訳(メタデータ) (2023-10-24T12:35:15Z) - Optimizer's Information Criterion: Dissecting and Correcting Bias in Data-Driven Optimization [16.57676001669012]
データ駆動最適化では、得られた決定のサンプル性能は通常、真の性能に対して楽観的なバイアスを生じさせる。
クロスバリデーションのような、このバイアスを修正するための一般的なテクニックは、追加の最適化問題を繰り返し解決する必要があるため、コストがかかる。
我々は一階偏差を直接近似する一般バイアス補正手法を開発し、追加の最適化問題を解く必要はない。
論文 参考訳(メタデータ) (2023-06-16T07:07:58Z) - Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか?
まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。
また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文 参考訳(メタデータ) (2022-03-12T16:07:57Z) - Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。
レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-08-02T02:56:30Z) - BOSH: Bayesian Optimization by Sampling Hierarchically [10.10241176664951]
本稿では,階層的なガウス過程と情報理論の枠組みを組み合わせたBOルーチンを提案する。
BOSHは, ベンチマーク, シミュレーション最適化, 強化学習, ハイパーパラメータチューニングタスクにおいて, 標準BOよりも効率的で高精度な最適化を実現する。
論文 参考訳(メタデータ) (2020-07-02T07:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。