論文の概要: Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms
- arxiv url: http://arxiv.org/abs/2406.02900v1
- Date: Wed, 5 Jun 2024 03:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 22:05:49.135812
- Title: Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms
- Title(参考訳): 直列配向アルゴリズムにおける逆モデル過最適化のスケーリング法則
- Authors: Rafael Rafailov, Yaswanth Chittepu, Ryan Park, Harshit Sikchi, Joey Hejna, Bradley Knox, Chelsea Finn, Scott Niekum,
- Abstract要約: 人間フィードバックからの強化学習(RLHF)は,近年の大規模言語モデル(LLM)の成功に不可欠である。
この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、定式化する。
DAA法は, 幅広いKL予算にまたがるだけでなく, データセットの1つのエポックが完成する前にも劣化することがわかった。
- 参考スコア(独自算出の注目度): 50.808123629394245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has been crucial to the recent success of Large Language Models (LLMs), however, it is often a complex and brittle process. In the classical RLHF framework, a reward model is first trained to represent human preferences, which is in turn used by an online reinforcement learning (RL) algorithm to optimize the LLM. A prominent issue with such methods is \emph{reward over-optimization} or \emph{reward hacking}, where performance as measured by the learned proxy reward model increases, but true quality plateaus or even deteriorates. Direct Alignment Algorithms (DDAs) like Direct Preference Optimization have emerged as alternatives to the classical RLHF pipeline by circumventing the reward modeling phase. However, although DAAs do not use a separate proxy reward model, they still commonly deteriorate from over-optimization. While the so-called reward hacking phenomenon is not well-defined for DAAs, we still uncover similar trends: at higher KL budgets, DAA algorithms exhibit similar degradation patterns to their classic RLHF counterparts. In particular, we find that DAA methods deteriorate not only across a wide range of KL budgets but also often before even a single epoch of the dataset is completed. Through extensive empirical experimentation, this work formulates and formalizes the reward over-optimization or hacking problem for DAAs and explores its consequences across objectives, training regimes, and model scales.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)は、最近のLarge Language Models (LLMs)の成功に不可欠であるが、しばしば複雑で不安定なプロセスである。
古典的なRLHFフレームワークでは、報酬モデルはまず人間の好みを表現するために訓練され、オンライン強化学習(RL)アルゴリズムによってLLMを最適化するために使用される。
このような方法の顕著な問題は、学習されたプロキシ報酬モデルによって測定されたパフォーマンスが増大するが、真の品質のプラトーは低下する、あるいは低下する、\emph{reward over-optimization} または \emph{reward Hacking} である。
ダイレクトアライメントアルゴリズム(DDA)は、報酬モデリングフェーズを回避し、古典的なRLHFパイプラインに代わるものとして登場した。
しかしながら、DAAは別のプロキシ報酬モデルを使用していないが、通常は過度な最適化によって劣化している。
いわゆる報酬ハッキング現象は、DAAにとってよく定義されていないが、同じような傾向がまだ明らかである:高いKL予算では、DAAアルゴリズムは従来のRLHFと同じような劣化パターンを示す。
特に,DAA法は,広範囲のKL予算だけでなく,データセットの1つのエポックが完成する前にも劣化することがわかった。
広範な実証実験を通じて、この研究はDAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目的、訓練体制、モデルスケールにわたって探求する。
関連論文リスト
- Averaging log-likelihoods in direct alignment [43.77763433288893]
本稿では,RL問題に対する最適ポリシーを与える最適演算子で構成する,新しい平均演算子を提案する。
このような平均化の効果を実証的に研究し、世代長とスコアのトレードオフを観察する。
論文 参考訳(メタデータ) (2024-06-27T14:07:38Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Loop Unrolled Shallow Equilibrium Regularizer (LUSER) -- A
Memory-Efficient Inverse Problem Solver [26.87738024952936]
逆問題では、潜在的に破損し、しばしば不適切な測定結果から、いくつかの基本的な関心のシグナルを再構築することを目的としている。
浅い平衡正規化器(L)を用いたLUアルゴリズムを提案する。
これらの暗黙のモデルは、より深い畳み込みネットワークと同じくらい表現力があるが、トレーニング中にはるかにメモリ効率が良い。
論文 参考訳(メタデータ) (2022-10-10T19:50:37Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。