論文の概要: Confronting Reward Model Overoptimization with Constrained RLHF
- arxiv url: http://arxiv.org/abs/2310.04373v2
- Date: Tue, 10 Oct 2023 15:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 18:40:35.861633
- Title: Confronting Reward Model Overoptimization with Constrained RLHF
- Title(参考訳): 制約付きRLHFによる逆モデル過最適化
- Authors: Ted Moskovitz, Aaditya K. Singh, DJ Strouse, Tuomas Sandholm, Ruslan
Salakhutdinov, Anca D. Dragan, Stephen McAleer
- Abstract要約: 成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
- 参考スコア(独自算出の注目度): 114.71591361764547
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models are typically aligned with human preferences by
optimizing $\textit{reward models}$ (RMs) fitted to human feedback. However,
human preferences are multi-faceted, and it is increasingly common to derive
reward from a composition of simpler reward models which each capture a
different aspect of language quality. This itself presents a challenge, as it
is difficult to appropriately weight these component RMs when combining them.
Compounding this difficulty, because any RM is only a proxy for human
evaluation, this process is vulnerable to $\textit{overoptimization}$, wherein
past a certain point, accumulating higher reward is associated with worse human
ratings. In this paper, we perform, to our knowledge, the first study on
overoptimization in composite RMs, showing that correlation between component
RMs has a significant effect on the locations of these points. We then
introduce an approach to solve this issue using constrained reinforcement
learning as a means of preventing the agent from exceeding each RM's threshold
of usefulness. Our method addresses the problem of weighting component RMs by
learning dynamic weights, naturally expressed by Lagrange multipliers. As a
result, each RM stays within the range at which it is an effective proxy,
improving evaluation performance. Finally, we introduce an adaptive method
using gradient-free optimization to identify and optimize towards these points
during a single run.
- Abstract(参考訳): 大規模な言語モデルは、通常、人間のフィードバックに適合する$\textit{reward models}$ (rms)を最適化することで、人間の好みに合致する。
しかし、人間の好みは多面的であり、言語品質の異なる側面を捉えた、より単純な報酬モデルの構成から報酬を得るのが一般的である。
それらを組み合わせる際にこれらのコンポーネントRMを適切に重み付けすることは困難である。
この難しさを加味すると、任意のrmは人格評価のプロキシであるため、このプロセスは$\textit{overoptimization}$に対して脆弱である。
本稿では, 複合rmにおける過最適化に関する最初の研究を行い, 構成rm間の相関がこれらの点の位置に有意な影響を及ぼすことを示した。
次に,エージェントが各RMの有用性閾値を超えるのを防ぐ手段として,制約付き強化学習を用いてこの問題を解決する手法を提案する。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
その結果、各rmは効果的なプロキシである範囲内にとどまり、評価性能が向上する。
最後に、勾配のない最適化を用いた適応手法を導入し、1回の実行中にこれらの点を同定し、最適化する。
関連論文リスト
- DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling [0.0]
我々は、Mixture-of-Experts(MoE)のアイデアを、報酬モデル(RM)トレーニングの分野に導入する。
特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。
我々のモデルは、人間の嗜好との整合性に優れ、先進的な生成アプローチを実現する。
論文 参考訳(メタデータ) (2024-03-02T12:31:22Z) - Improving Reinforcement Learning from Human Feedback with Efficient
Reward Model Ensemble [71.44669705576263]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - The Trickle-down Impact of Reward (In-)consistency on RLHF [71.37987812944971]
報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T04:05:13Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Learning Reward Machines: A Study in Partially Observable Reinforcement
Learning [19.483669435200415]
リワードマシン(RM)は、報酬関数の構造化された自動表現を提供する。
ユーザによって指定されるのではなく、経験からRMを学ぶことができることを示す。
3つの部分観測可能な領域に対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-12-17T12:39:52Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。