論文の概要: RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation
- arxiv url: http://arxiv.org/abs/2501.08617v1
- Date: Wed, 15 Jan 2025 06:33:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 16:46:28.377355
- Title: RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation
- Title(参考訳): RLHS:Hindsight SimulationによるRLHFのミスアライメントの軽減
- Authors: Kaiqu Liang, Haimin Hu, Ryan Liu, Thomas L. Griffiths, Jaime Fernández Fisac,
- Abstract要約: 本研究では,評価者の予測値に基づく下流結果のフィードバックが,グッドハートの法則力学を系統的に誘導することを示す。
RLHS(Reinforcement Learning from Hindsight Simulation)を導入し、まずまず、実証可能な結果をシミュレートし、次に、後見において真に有益である行動を評価するためにフィードバックを付与する。
- 参考スコア(独自算出の注目度): 3.998312409829935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI systems like foundation models (FMs) must align well with human values to ensure their behavior is helpful and trustworthy. While Reinforcement Learning from Human Feedback (RLHF) has shown promise for optimizing model performance using human judgments, existing RLHF pipelines predominantly rely on immediate feedback, which can fail to accurately reflect the downstream impact of an interaction on users' utility. We demonstrate that feedback based on evaluators' foresight estimates of downstream consequences systematically induces Goodhart's Law dynamics, incentivizing misaligned behaviors like sycophancy and deception and ultimately degrading user outcomes. To alleviate this, we propose decoupling evaluation from prediction by refocusing RLHF on hindsight feedback. Our theoretical analysis reveals that conditioning evaluator feedback on downstream observations mitigates misalignment and improves expected human utility, even when these observations are simulated by the AI system itself. To leverage this insight in a practical alignment algorithm, we introduce Reinforcement Learning from Hindsight Simulation (RLHS), which first simulates plausible consequences and then elicits feedback to assess what behaviors were genuinely beneficial in hindsight. We apply RLHS to two widely-employed online and offline preference optimization methods -- Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO) -- and show empirically that misalignment is significantly reduced with both methods. Through an online human user study, we show that RLHS consistently outperforms RLHF in helping users achieve their goals and earns higher satisfaction ratings, despite being trained solely with simulated hindsight feedback. These results underscore the importance of focusing on long-term consequences, even simulated ones, to mitigate misalignment in RLHF.
- Abstract(参考訳): ファンデーションモデル(FM)のような生成AIシステムは、その振る舞いが有用で信頼性の高いものであることを保証するために、人間の価値とうまく一致しなければならない。
Reinforcement Learning from Human Feedback (RLHF)は、人間の判断によるモデルパフォーマンスの最適化を約束しているが、既存のRLHFパイプラインは主に即時フィードバックに依存しており、ユーザのユーティリティに対するインタラクションのダウンストリームの影響を正確に反映できない。
評価者による下流結果のフォレスト推定に基づくフィードバックは、グッドハートの法則力学を体系的に誘発し、梅毒や騙しなどの不整合行動にインセンティブを与え、最終的にはユーザ成果を低下させることを示した。
そこで本研究では,RLHFを後向きフィードバックに再フォーカスすることで,予測からの疎結合評価を提案する。
我々の理論的分析では、下流の観測に対する条件付評価器のフィードバックは、AIシステム自体によってこれらの観測がシミュレートされた場合でも、誤調整を軽減し、期待される人間の実用性を改善することが示されている。
この知見を実践的なアライメントアルゴリズムで活用するために,まずまず,実証可能な結果をシミュレートし,次に後見で真に有益である行動を評価するためにフィードバックを付与するReinforcement Learning from Hindsight Simulation (RLHS)を導入する。
我々はRLHSをPPO(Proximal Policy Optimization)とDPO(Direct Preference Optimization)の2つの広く採用されているオンラインおよびオフラインの選好最適化手法に適用し、両者の手法によるミスアライメントが著しく低減されていることを実証的に示す。
オンライン・ヒューマン・ユーザー・スタディを通じて、RLHSはユーザーが目標を達成するのを助けるためにRLHFを一貫して上回り、高い評価を得た。
これらの結果は、RLHFにおける不整合を軽減するために、長期的結果(シミュレーション結果でさえも)に焦点を当てることの重要性を浮き彫りにしている。
関連論文リスト
- GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Solving the Inverse Alignment Problem for Efficient RLHF [0.0]
言語モデルトレーニングにおける「逆アライメント問題」を定義する。
本研究では,周期的に凍結されたポリシーに沿ったオフライン嗜好データセットのサブセットに対して,報酬モデルを繰り返し微調整することにより,バニラRLHFを改善するか否かを検討する。
論文 参考訳(メタデータ) (2024-12-13T19:47:38Z) - UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning [10.593924216046977]
まず,MSEによる過大評価現象を理論的に解析し,過大評価誤差の理論的上限を与える。
最後に、過小評価演算子と拡散ポリシーモデルに基づくオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T14:37:42Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Assessing the Impact of Distribution Shift on Reinforcement Learning
Performance [0.0]
強化学習(RL)は独自の課題に直面する。
点推定と訓練中の最適方針への収束を成功させるプロットの比較は、実験装置への過度な適合や依存を阻害する可能性がある。
本稿では,分散シフト下でのRLアルゴリズムのロバスト性を評価するための評価手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T23:50:55Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Model-enhanced Contrastive Reinforcement Learning for Sequential
Recommendation [28.218427886174506]
モデル強化コントラスト強化学習(MCRL)という新しいRLレコメンデータを提案する。
一方、ユーザの長期エンゲージメントを推定するためのバリュー関数と、過大評価問題を緩和するための保守的なバリュー学習機構を学習する。
実験により,提案手法は既存のオフラインRL法と自己教師付きRL法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-25T11:43:29Z) - Off-Policy Evaluation for Human Feedback [46.82894469763776]
オフライン学習と強化学習(RL)のギャップを埋めるためには、オフ政治評価(OPE)が重要である
既存のOPE手法は、人間のフィードバック(HF)信号を推定するには不十分である。
本稿では,HF 信号の正確な評価のために,既存の OPE 手法を復元する HF 用 OPE (OPEHF) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T01:52:42Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Causal Inference Q-Network: Toward Resilient Reinforcement Learning [57.96312207429202]
観測干渉を有する弾力性のあるDRLフレームワークを検討する。
本稿では、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。
実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
論文 参考訳(メタデータ) (2021-02-18T23:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。