論文の概要: Sail into the Headwind: Alignment via Robust Rewards and Dynamic Labels against Reward Hacking
- arxiv url: http://arxiv.org/abs/2412.09544v1
- Date: Thu, 12 Dec 2024 18:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:33.234658
- Title: Sail into the Headwind: Alignment via Robust Rewards and Dynamic Labels against Reward Hacking
- Title(参考訳): ヘッドウインドへのセイル:ロバスト・リワードによるアライメントとリワード・ハッキングに対するダイナミック・ラベル
- Authors: Paria Rashidinejad, Yuandong Tian,
- Abstract要約: 本稿では,プライオリティデータセットを用いた初期モデルの改善を目的とした,オフラインのプライオリティ最適化における報酬ハックについて検討する。
我々は,データセットの統計的変動から生じる報奨ハッキングの2つのタイプを同定した: 選択が不適切である場合のタイプI Reward Hackingと,適切な選択があまり好ましくない場合のタイプII Reward Hackingである。
多くの(主ストリームまたは理論的な)選好最適化手法が、どちらの種類の報奨ハッキングにも悩まされていることを証明している。
- 参考スコア(独自算出の注目度): 36.69993567249251
- License:
- Abstract: Aligning AI systems with human preferences typically suffers from the infamous reward hacking problem, where optimization of an imperfect reward model leads to undesired behaviors. In this paper, we investigate reward hacking in offline preference optimization, which aims to improve an initial model using a preference dataset. We identify two types of reward hacking stemming from statistical fluctuations in the dataset: Type I Reward Hacking due to subpar choices appearing more favorable, and Type II Reward Hacking due to decent choices appearing less favorable. We prove that many (mainstream or theoretical) preference optimization methods suffer from both types of reward hacking. To mitigate Type I Reward Hacking, we propose POWER, a new preference optimization method that combines Guiasu's weighted entropy with a robust reward maximization objective. POWER enjoys finite-sample guarantees under general function approximation, competing with the best covered policy in the data. To mitigate Type II Reward Hacking, we analyze the learning dynamics of preference optimization and develop a novel technique that dynamically updates preference labels toward certain "stationary labels", resulting in diminishing gradients for untrustworthy samples. Empirically, POWER with dynamic labels (POWER-DL) consistently outperforms state-of-the-art methods on alignment benchmarks, achieving improvements of up to 13.0 points on AlpacaEval 2.0 and 11.5 points on Arena-Hard over DPO, while also improving or maintaining performance on downstream tasks such as mathematical reasoning. Strong theoretical guarantees and empirical results demonstrate the promise of POWER-DL in mitigating reward hacking.
- Abstract(参考訳): 人間の好みによるAIシステムのアライメントは通常、不完全な報酬モデルの最適化が望ましくない行動を引き起こす悪名高い報酬ハッキング問題に悩まされる。
本稿では,プライオリティデータセットを用いた初期モデルの改善を目的とした,オフラインのプライオリティ最適化における報酬ハックについて検討する。
我々は,データセットの統計的変動から生じる報奨ハッキングの2つのタイプを同定した: 選択が不適切である場合のタイプI Reward Hackingと,適切な選択があまり好ましくない場合のタイプII Reward Hackingである。
多くの(主ストリームまたは理論的な)選好最適化手法が、どちらの種類の報奨ハッキングにも悩まされていることを証明している。
タイプI Reward Hackingを緩和するために,Guiasuの重み付きエントロピーとロバストな報酬最大化目標を組み合わせた新しい選好最適化手法POWERを提案する。
POWERは、一般的な関数近似の下で有限サンプル保証を楽しみ、データの中で最高のカバーされたポリシーと競合する。
タイプII Reward Hackingを緩和するために、選好最適化の学習力学を分析し、特定の「静止ラベル」に対して選好ラベルを動的に更新する手法を開発し、信頼できないサンプルの勾配を減少させる。
実証的には、動的ラベル(POWER-DL)を持つPOWERは、アライメントベンチマークにおける最先端の手法を一貫して上回り、AlpacaEval 2.0では最大13.0ポイント、DPOではArena-Hardでは11.5ポイント、数学的推論などの下流タスクではパフォーマンスを向上または維持する。
強力な理論的保証と実証結果は、報酬ハッキングの軽減におけるPOWER-DLの約束を示す。
関連論文リスト
- Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment [19.02679077706812]
大規模言語モデルと人間の嗜好データとの整合性について検討する。
我々は、単純で効果的なアルゴリズムである直接選好最適化(Cal-DPO)を提案する。
各種標準ベンチマーク実験の結果,Cal-DPOは市販の手法を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-12-19T04:31:56Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Elephant in the Room: Unveiling the Impact of Reward Model Quality in Alignment [50.21842377409232]
重要な役割の報酬モデルが整列するにもかかわらず、以前の作品は一貫してパフォーマンスを見落としている。
本研究は、まず、広く使われている嗜好データセットHH-RLHFの品質を調査し、クリーンバージョンCHH-RLHFをキュレートする。
本稿では,CHH-RLHFに基づいて,従来のアライメント作業で使用する幅広い報酬モデルの精度をベンチマークし,最適化と評価の両方に使用するという信頼性の欠如を明らかにした。
論文 参考訳(メタデータ) (2024-09-26T04:28:35Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Stabilizing RLHF through Advantage Model and Selective Rehearsal [57.504894664689]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、これらのモデルを人間の価値観や好みに合わせることは依然として大きな課題である。
この課題は、報酬のハッキングや破滅的な忘れなど、さまざまな不安定さによって特徴づけられる。
1) 報酬ハッキング防止のために, スコアを直接モデル化し, タスク間のスコア分布を規制するアドバンテージモデル, 2) PPOトレーニングと知識リハーサルのためのデータを戦略的に選択することで, 悲惨な忘れを緩和する選択リハーサルを提案する。
論文 参考訳(メタデータ) (2023-09-18T23:06:32Z) - Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。
提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。
いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文 参考訳(メタデータ) (2021-03-08T03:28:04Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。