Fugu-MT 論文翻訳(概要): Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification

論文の概要: Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification

arxiv url: http://arxiv.org/abs/2407.14503v1
Date: Fri, 19 Jul 2024 17:57:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 16:35:50.875940
Title: Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification
Title（参考訳）: カタストロフィック・グッドハート:KLの発散によるRLHFの正則化は重み付き報酬ミス種別を緩和しない
Authors: Thomas Kwa, Drake Thomas, Adrià Garriga-Alonso,
Abstract要約: 報酬関数が軽み付き誤差を持つ場合、制約の少ないKL罰則の最適ポリシーは任意に高い効用が得られることを示す。エラーが重み付けされている場合、いくつかのポリシーは、基本モデル以上の実用性は達成していないにもかかわらず、任意に高い報酬を得る。多くの実世界のアプリケーションにおける重み付き分布の広範性は、将来のRL報酬の源泉が重み付き誤りであることを示している。
参考スコア（独自算出の注目度）: 1.0582505915332336
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: When applying reinforcement learning from human feedback (RLHF), the reward is learned from data and, therefore, always has some error. It is common to mitigate this by regularizing the policy with KL divergence from a base model, with the hope that balancing reward with regularization will achieve desirable outcomes despite this reward misspecification. We show that when the reward function has light-tailed error, optimal policies under less restrictive KL penalties achieve arbitrarily high utility. However, if error is heavy-tailed, some policies obtain arbitrarily high reward despite achieving no more utility than the base model--a phenomenon we call catastrophic Goodhart. We adapt a discrete optimization method to measure the tails of reward models, finding that they are consistent with light-tailed error. However, the pervasiveness of heavy-tailed distributions in many real-world applications indicates that future sources of RL reward could have heavy-tailed error, increasing the likelihood of reward hacking even with KL regularization.
Abstract（参考訳）: 人間のフィードバック(RLHF)から強化学習を適用する場合、報酬はデータから学習されるため、常に何らかの誤りがある。基本モデルからKLの発散でポリシーを定式化し、正規化による報酬のバランスが、この報酬の不特定にもかかわらず望ましい結果をもたらすことを期待することで、これを緩和することが一般的である。報酬関数が軽み付き誤差を持つ場合、制約の少ないKL罰則の最適ポリシーは任意に高い効用が得られることを示す。しかし、誤りが重大であれば、基本モデル以上の実用性は得られないにもかかわらず、任意に高い報酬を得る政策もあり、これは破滅的なグッドハートと呼ばれる現象である。我々は、報酬モデルのテールを測定するために離散最適化法を適用し、それらが光尾誤差と整合性があることを見出した。しかし、多くの実世界のアプリケーションにおける重み付き分布の広範性は、将来のRL報酬源が重み付き誤りを犯し、KL正規化においても報酬ハッキングの可能性が高まることを示している。

関連論文リスト

Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards [45.83885805939434]
一般的な問題は報酬ハックであり、ポリシーは報酬の不正確さを利用して意図しない振る舞いを学ぶ。これまでのほとんどの作業では、参照モデルに対するKullback-Leiblerペナルティによるポリシー更新を制限することで、この問題に対処している。報酬がより正確である地域に対して、ポリシー更新をバイアスする方法でLMを訓練する。
論文参考訳（メタデータ） (2026-02-20T07:32:22Z)
Real-Time Aligned Reward Model beyond Semantics [49.717236911878224]
本稿では,R2M(Real-Time Aligned Reward Model)という軽量なRLHFフレームワークを紹介する。 R2Mは、事前訓練されたLLMの意味表現のみに依存するバニラ報酬モデルを越えている。この研究は、ポリシーモデルからのフィードバックをリアルタイムで活用することで、報酬モデルの性能を向上させるための有望な新しい方向性を示している。
論文参考訳（メタデータ） (2026-01-30T07:32:35Z)
Rethinking KL Regularization in RLHF: From Value Estimation to Gradient Optimization [6.136585583991053]
Reinforcement Learning from Human Feedback (RLHF) は、Kulback-Leibler (KL) の分散損失を利用してトレーニングを安定させ、オーバーフィッティングを防ぐ。 GRPOのような手法では、数値値の推定からその実装を導出することができる。
論文参考訳（メタデータ） (2025-10-02T01:00:02Z)
FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文参考訳（メタデータ） (2025-09-18T17:56:36Z)
Learning a Pessimistic Reward Model in RLHF [8.241055055841114]
本研究は、報酬ハッキングに対して堅牢な悲観的報酬モデルを学ぶために、新しい悲観的報酬微調整法であるPET'を提案する。従来の報酬モデリング技術は、KL正規化が報酬ハッキングの緩和に重要な役割を果たしている不完全な報酬モデルを訓練する。 PETにより微調整された悲観的な報酬モデルに対するポリシーを最適化する場合、報酬のハッキングは正規化に頼らずに防止できることを示す。
論文参考訳（メタデータ） (2025-05-26T22:34:42Z)
Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文参考訳（メタデータ） (2025-05-19T08:29:28Z)
Probabilistic Uncertain Reward Model: A Natural Generalization of Bradley-Terry Reward Model [27.40414952747553]
報奨ハッキングに対処する確率的不確実リワードモデル(PURM)を提案する。 PURMは報酬と不確実性を効果的にモデル化し、報酬ハッキングの開始を著しく遅らせることを示す。
論文参考訳（メタデータ） (2025-03-28T14:39:52Z)
Likelihood Reward Redistribution [0.0]
本稿では,報酬再分配のためのEmphLikelihood Reward Redistribution (LRR) フレームワークを提案する。ソフトアクター・クライブのような非政治的アルゴリズムと統合すると、LRRは密度が高く情報的な報奨信号を生成する。
論文参考訳（メタデータ） (2025-03-20T20:50:49Z)
Sharp Analysis for KL-Regularized Contextual Bandits and RLHF [52.519416266840814]
Reverse-Kullback-Leibler (KL) 正則化は、強化学習におけるポリシー最適化を強化する主要な手法である。単純な2段階混合サンプリング戦略は, カバー係数に付加的な依存しか持たずに, サンプルの複雑さを達成できることが示される。この結果は,より効率的なRLHFアルゴリズムの設計に光を当て,KL正規化とRLHFにおけるデータカバレッジの役割を包括的に理解するものである。
論文参考訳（メタデータ） (2024-11-07T11:22:46Z)
The Perfect Blend: Redefining RLHF with Mixture of Judges [68.58426626501883]
人間のフィードバックによる強化学習(RLHF)が,大規模言語モデル(LLM)の指導的アプローチとなっている。 MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。 CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを導入する。
論文参考訳（メタデータ） (2024-09-30T15:06:53Z)
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文参考訳（メタデータ） (2024-09-25T22:20:11Z)
WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。 WARPは重量空間のポリシーを3つの異なる段階でマージする。 GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文参考訳（メタデータ） (2024-06-24T16:24:34Z)
The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret [64.04721528586747]
強化学習では、意図したタスクをキャプチャする報酬関数を指定することが非常に難しい。本稿では,報奨モデルの十分低いテスト誤差が,最悪の場合の後悔を保証できることを数学的に示す。次に、RLHFのような手法でよく用いられるポリシー正則化手法を用いても、同様の問題が持続することを示す。
論文参考訳（メタデータ） (2024-06-22T06:43:51Z)
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
Direct Preference Optimizationのようなダイレクトアライメントアルゴリズム(DDA)は、古典的なRLHFパイプラインの代替として登場した。この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目標、訓練体制、モデルスケールにわたって探求する。
論文参考訳（メタデータ） (2024-06-05T03:41:37Z)
Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文参考訳（メタデータ） (2024-05-29T17:39:48Z)
Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking [11.589217788048964]
状態に対する代償と真報酬の相関に基づく報酬ハッキングの定義を導入する。基本方針の正則化が報酬ハッキングを効果的に防止できることを理論的に示す。
論文参考訳（メタデータ） (2024-03-05T18:22:15Z)
Uncertainty-Penalized Reinforcement Learning from Human Feedback with Diverse Reward LoRA Ensembles [26.955375398765085]
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の整合性のための有望なパラダイムとして出現する。本稿では,既存のRLHF法でよく用いられるKL正則化の弱点を観察し,過度な最適化に対処する。本稿では,RLファインタニング中の不確実性正則化を取り入れた不確実性補償RLHF(UP-RLHF)を提案する。
論文参考訳（メタデータ） (2023-12-30T14:14:14Z)
Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文参考訳（メタデータ） (2022-10-19T17:56:10Z)
The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文参考訳（メタデータ） (2022-01-10T18:58:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。