論文の概要: RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation
- arxiv url: http://arxiv.org/abs/2501.08617v1
- Date: Wed, 15 Jan 2025 06:33:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:53:43.011732
- Title: RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation
- Title(参考訳): RLHS:Hindsight SimulationによるRLHFのミスアライメントの軽減
- Authors: Kaiqu Liang, Haimin Hu, Ryan Liu, Thomas L. Griffiths, Jaime Fernández Fisac,
- Abstract要約: 本研究では,評価者の予測値に基づく下流結果のフィードバックが,グッドハートの法則力学を系統的に誘導することを示す。
RLHS(Reinforcement Learning from Hindsight Simulation)を導入し、まずまず、実証可能な結果をシミュレートし、次に、後見において真に有益である行動を評価するためにフィードバックを付与する。
- 参考スコア(独自算出の注目度): 3.998312409829935
- License:
- Abstract: Generative AI systems like foundation models (FMs) must align well with human values to ensure their behavior is helpful and trustworthy. While Reinforcement Learning from Human Feedback (RLHF) has shown promise for optimizing model performance using human judgments, existing RLHF pipelines predominantly rely on immediate feedback, which can fail to accurately reflect the downstream impact of an interaction on users' utility. We demonstrate that feedback based on evaluators' foresight estimates of downstream consequences systematically induces Goodhart's Law dynamics, incentivizing misaligned behaviors like sycophancy and deception and ultimately degrading user outcomes. To alleviate this, we propose decoupling evaluation from prediction by refocusing RLHF on hindsight feedback. Our theoretical analysis reveals that conditioning evaluator feedback on downstream observations mitigates misalignment and improves expected human utility, even when these observations are simulated by the AI system itself. To leverage this insight in a practical alignment algorithm, we introduce Reinforcement Learning from Hindsight Simulation (RLHS), which first simulates plausible consequences and then elicits feedback to assess what behaviors were genuinely beneficial in hindsight. We apply RLHS to two widely-employed online and offline preference optimization methods -- Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO) -- and show empirically that misalignment is significantly reduced with both methods. Through an online human user study, we show that RLHS consistently outperforms RLHF in helping users achieve their goals and earns higher satisfaction ratings, despite being trained solely with simulated hindsight feedback. These results underscore the importance of focusing on long-term consequences, even simulated ones, to mitigate misalignment in RLHF.
- Abstract(参考訳): ファンデーションモデル(FM)のような生成AIシステムは、その振る舞いが有用で信頼性の高いものであることを保証するために、人間の価値とうまく一致しなければならない。
Reinforcement Learning from Human Feedback (RLHF)は、人間の判断によるモデルパフォーマンスの最適化を約束しているが、既存のRLHFパイプラインは主に即時フィードバックに依存しており、ユーザのユーティリティに対するインタラクションのダウンストリームの影響を正確に反映できない。
評価者による下流結果のフォレスト推定に基づくフィードバックは、グッドハートの法則力学を体系的に誘発し、梅毒や騙しなどの不整合行動にインセンティブを与え、最終的にはユーザ成果を低下させることを示した。
そこで本研究では,RLHFを後向きフィードバックに再フォーカスすることで,予測からの疎結合評価を提案する。
我々の理論的分析では、下流の観測に対する条件付評価器のフィードバックは、AIシステム自体によってこれらの観測がシミュレートされた場合でも、誤調整を軽減し、期待される人間の実用性を改善することが示されている。
この知見を実践的なアライメントアルゴリズムで活用するために,まずまず,実証可能な結果をシミュレートし,次に後見で真に有益である行動を評価するためにフィードバックを付与するReinforcement Learning from Hindsight Simulation (RLHS)を導入する。
我々はRLHSをPPO(Proximal Policy Optimization)とDPO(Direct Preference Optimization)の2つの広く採用されているオンラインおよびオフラインの選好最適化手法に適用し、両者の手法によるミスアライメントが著しく低減されていることを実証的に示す。
オンライン・ヒューマン・ユーザー・スタディを通じて、RLHSはユーザーが目標を達成するのを助けるためにRLHFを一貫して上回り、高い評価を得た。
これらの結果は、RLHFにおける不整合を軽減するために、長期的結果(シミュレーション結果でさえも)に焦点を当てることの重要性を浮き彫りにしている。
関連論文リスト
- UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning [10.593924216046977]
まず,MSEによる過大評価現象を理論的に解析し,過大評価誤差の理論的上限を与える。
最後に、過小評価演算子と拡散ポリシーモデルに基づくオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T14:37:42Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Model-enhanced Contrastive Reinforcement Learning for Sequential
Recommendation [28.218427886174506]
モデル強化コントラスト強化学習(MCRL)という新しいRLレコメンデータを提案する。
一方、ユーザの長期エンゲージメントを推定するためのバリュー関数と、過大評価問題を緩和するための保守的なバリュー学習機構を学習する。
実験により,提案手法は既存のオフラインRL法と自己教師付きRL法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-25T11:43:29Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Off-Policy Evaluation for Human Feedback [46.82894469763776]
オフライン学習と強化学習(RL)のギャップを埋めるためには、オフ政治評価(OPE)が重要である
既存のOPE手法は、人間のフィードバック(HF)信号を推定するには不十分である。
本稿では,HF 信号の正確な評価のために,既存の OPE 手法を復元する HF 用 OPE (OPEHF) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T01:52:42Z) - Fine-tuning Language Models with Generative Adversarial Reward Modelling [30.424363135421917]
RLHF(Reinforcement Learning with Human Feedback)は、大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。
我々は、RLHFとSFTに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という別のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。