論文の概要: RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation
- arxiv url: http://arxiv.org/abs/2501.08617v1
- Date: Wed, 15 Jan 2025 06:33:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:53:43.011732
- Title: RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation
- Title(参考訳): RLHS:Hindsight SimulationによるRLHFのミスアライメントの軽減
- Authors: Kaiqu Liang, Haimin Hu, Ryan Liu, Thomas L. Griffiths, Jaime Fernández Fisac,
- Abstract要約: 本研究では,評価者の予測値に基づく下流結果のフィードバックが,グッドハートの法則力学を系統的に誘導することを示す。
RLHS(Reinforcement Learning from Hindsight Simulation)を導入し、まずまず、実証可能な結果をシミュレートし、次に、後見において真に有益である行動を評価するためにフィードバックを付与する。
- 参考スコア(独自算出の注目度): 3.998312409829935
- License:
- Abstract: Generative AI systems like foundation models (FMs) must align well with human values to ensure their behavior is helpful and trustworthy. While Reinforcement Learning from Human Feedback (RLHF) has shown promise for optimizing model performance using human judgments, existing RLHF pipelines predominantly rely on immediate feedback, which can fail to accurately reflect the downstream impact of an interaction on users' utility. We demonstrate that feedback based on evaluators' foresight estimates of downstream consequences systematically induces Goodhart's Law dynamics, incentivizing misaligned behaviors like sycophancy and deception and ultimately degrading user outcomes. To alleviate this, we propose decoupling evaluation from prediction by refocusing RLHF on hindsight feedback. Our theoretical analysis reveals that conditioning evaluator feedback on downstream observations mitigates misalignment and improves expected human utility, even when these observations are simulated by the AI system itself. To leverage this insight in a practical alignment algorithm, we introduce Reinforcement Learning from Hindsight Simulation (RLHS), which first simulates plausible consequences and then elicits feedback to assess what behaviors were genuinely beneficial in hindsight. We apply RLHS to two widely-employed online and offline preference optimization methods -- Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO) -- and show empirically that misalignment is significantly reduced with both methods. Through an online human user study, we show that RLHS consistently outperforms RLHF in helping users achieve their goals and earns higher satisfaction ratings, despite being trained solely with simulated hindsight feedback. These results underscore the importance of focusing on long-term consequences, even simulated ones, to mitigate misalignment in RLHF.
- Abstract(参考訳): ファンデーションモデル(FM)のような生成AIシステムは、その振る舞いが有用で信頼性の高いものであることを保証するために、人間の価値とうまく一致しなければならない。
Reinforcement Learning from Human Feedback (RLHF)は、人間の判断によるモデルパフォーマンスの最適化を約束しているが、既存のRLHFパイプラインは主に即時フィードバックに依存しており、ユーザのユーティリティに対するインタラクションのダウンストリームの影響を正確に反映できない。
評価者による下流結果のフォレスト推定に基づくフィードバックは、グッドハートの法則力学を体系的に誘発し、梅毒や騙しなどの不整合行動にインセンティブを与え、最終的にはユーザ成果を低下させることを示した。
そこで本研究では,RLHFを後向きフィードバックに再フォーカスすることで,予測からの疎結合評価を提案する。
我々の理論的分析では、下流の観測に対する条件付評価器のフィードバックは、AIシステム自体によってこれらの観測がシミュレートされた場合でも、誤調整を軽減し、期待される人間の実用性を改善することが示されている。
この知見を実践的なアライメントアルゴリズムで活用するために,まずまず,実証可能な結果をシミュレートし,次に後見で真に有益である行動を評価するためにフィードバックを付与するReinforcement Learning from Hindsight Simulation (RLHS)を導入する。
我々はRLHSをPPO(Proximal Policy Optimization)とDPO(Direct Preference Optimization)の2つの広く採用されているオンラインおよびオフラインの選好最適化手法に適用し、両者の手法によるミスアライメントが著しく低減されていることを実証的に示す。
オンライン・ヒューマン・ユーザー・スタディを通じて、RLHSはユーザーが目標を達成するのを助けるためにRLHFを一貫して上回り、高い評価を得た。
これらの結果は、RLHFにおける不整合を軽減するために、長期的結果(シミュレーション結果でさえも)に焦点を当てることの重要性を浮き彫りにしている。
関連論文リスト
- Solving the Inverse Alignment Problem for Efficient RLHF [0.0]
言語モデルトレーニングにおける「逆アライメント問題」を定義する。
本研究では,周期的に凍結されたポリシーに沿ったオフライン嗜好データセットのサブセットに対して,報酬モデルを繰り返し微調整することにより,バニラRLHFを改善するか否かを検討する。
論文 参考訳(メタデータ) (2024-12-13T19:47:38Z) - UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning [10.593924216046977]
まず,MSEによる過大評価現象を理論的に解析し,過大評価誤差の理論的上限を与える。
最後に、過小評価演算子と拡散ポリシーモデルに基づくオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T14:37:42Z) - Assessing the Impact of Distribution Shift on Reinforcement Learning
Performance [0.0]
強化学習(RL)は独自の課題に直面する。
点推定と訓練中の最適方針への収束を成功させるプロットの比較は、実験装置への過度な適合や依存を阻害する可能性がある。
本稿では,分散シフト下でのRLアルゴリズムのロバスト性を評価するための評価手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T23:50:55Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Mitigating the Alignment Tax of RLHF [76.4300447532456]
強化学習(Reinforcement Learning)とヒューマンフィードバック(Human Feedback)の下のLLMの調整は、事前訓練された能力(アライメント税(アライメント税)としても知られる)を忘れてしまう可能性がある。
最小アライメント税を課しながらアライメント性能を最大化するためのモデル平均化を提案する。
我々は,OpenLLaMA-3B上でのRLHFアルゴリズムによるHMAの性能評価を行い,さらにMistral-7Bまで拡張した。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Causal Inference Q-Network: Toward Resilient Reinforcement Learning [57.96312207429202]
観測干渉を有する弾力性のあるDRLフレームワークを検討する。
本稿では、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。
実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
論文 参考訳(メタデータ) (2021-02-18T23:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。