論文の概要: Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification
- arxiv url: http://arxiv.org/abs/2407.14503v1
- Date: Fri, 19 Jul 2024 17:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 16:35:50.875940
- Title: Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification
- Title(参考訳): カタストロフィック・グッドハート:KLの発散によるRLHFの正則化は重み付き報酬ミス種別を緩和しない
- Authors: Thomas Kwa, Drake Thomas, Adrià Garriga-Alonso,
- Abstract要約: 報酬関数が軽み付き誤差を持つ場合、制約の少ないKL罰則の最適ポリシーは任意に高い効用が得られることを示す。
エラーが重み付けされている場合、いくつかのポリシーは、基本モデル以上の実用性は達成していないにもかかわらず、任意に高い報酬を得る。
多くの実世界のアプリケーションにおける重み付き分布の広範性は、将来のRL報酬の源泉が重み付き誤りであることを示している。
- 参考スコア(独自算出の注目度): 1.0582505915332336
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When applying reinforcement learning from human feedback (RLHF), the reward is learned from data and, therefore, always has some error. It is common to mitigate this by regularizing the policy with KL divergence from a base model, with the hope that balancing reward with regularization will achieve desirable outcomes despite this reward misspecification. We show that when the reward function has light-tailed error, optimal policies under less restrictive KL penalties achieve arbitrarily high utility. However, if error is heavy-tailed, some policies obtain arbitrarily high reward despite achieving no more utility than the base model--a phenomenon we call catastrophic Goodhart. We adapt a discrete optimization method to measure the tails of reward models, finding that they are consistent with light-tailed error. However, the pervasiveness of heavy-tailed distributions in many real-world applications indicates that future sources of RL reward could have heavy-tailed error, increasing the likelihood of reward hacking even with KL regularization.
- Abstract(参考訳): 人間のフィードバック(RLHF)から強化学習を適用する場合、報酬はデータから学習されるため、常に何らかの誤りがある。
基本モデルからKLの発散でポリシーを定式化し、正規化による報酬のバランスが、この報酬の不特定にもかかわらず望ましい結果をもたらすことを期待することで、これを緩和することが一般的である。
報酬関数が軽み付き誤差を持つ場合、制約の少ないKL罰則の最適ポリシーは任意に高い効用が得られることを示す。
しかし、誤りが重大であれば、基本モデル以上の実用性は得られないにもかかわらず、任意に高い報酬を得る政策もあり、これは破滅的なグッドハートと呼ばれる現象である。
我々は、報酬モデルのテールを測定するために離散最適化法を適用し、それらが光尾誤差と整合性があることを見出した。
しかし、多くの実世界のアプリケーションにおける重み付き分布の広範性は、将来のRL報酬源が重み付き誤りを犯し、KL正規化においても報酬ハッキングの可能性が高まることを示している。
関連論文リスト
- WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret [64.04721528586747]
強化学習では、意図したタスクをキャプチャする報酬関数を指定することが非常に難しい。
本稿では,報奨モデルの十分低いテスト誤差が,最悪の場合の後悔を保証できることを数学的に示す。
次に、RLHFのような手法でよく用いられるポリシー正則化手法を用いても、同様の問題が持続することを示す。
論文 参考訳(メタデータ) (2024-06-22T06:43:51Z) - Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
人間フィードバックからの強化学習(RLHF)は,近年の大規模言語モデル(LLM)の成功に不可欠である。
この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、定式化する。
DAA法は, 幅広いKL予算にまたがるだけでなく, データセットの1つのエポックが完成する前にも劣化することがわかった。
論文 参考訳(メタデータ) (2024-06-05T03:41:37Z) - Preventing Reward Hacking with Occupancy Measure Regularization [13.02511938180832]
リワードハッキングは、エージェントが未知の真の報酬に対して不適切なパフォーマンスをした場合に発生する。
我々は、報酬ハッキングを防止するために、AD分散ではなくポリシー間のOM分散に基づく正規化を提案する。
論文 参考訳(メタデータ) (2024-03-05T18:22:15Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Uncertainty-Penalized Reinforcement Learning from Human Feedback with
Diverse Reward LoRA Ensembles [26.955375398765085]
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の整合性のための有望なパラダイムとして出現する。
本稿では,既存のRLHF法でよく用いられるKL正則化の弱点を観察し,過度な最適化に対処する。
本稿では,RLファインタニング中の不確実性正則化を取り入れた不確実性補償RLHF(UP-RLHF)を提案する。
論文 参考訳(メタデータ) (2023-12-30T14:14:14Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate
Reward Hacking [63.666119126351965]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z) - RL with KL penalties is better viewed as Bayesian inference [4.473139775790299]
我々は、言語モデルを強化学習ポリシーとして扱う際の課題を分析する。
これらの課題を避けるには、どのようにしてRLパラダイムを超えていく必要があるかを示します。
論文 参考訳(メタデータ) (2022-05-23T12:47:13Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。