論文の概要: Reward Shaping to Mitigate Reward Hacking in RLHF
- arxiv url: http://arxiv.org/abs/2502.18770v1
- Date: Wed, 26 Feb 2025 02:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:49.388951
- Title: Reward Shaping to Mitigate Reward Hacking in RLHF
- Title(参考訳): RLHFのリワードハッキングを緩和するリワードシェイピング
- Authors: Jiayi Fu, Xuandong Zhao, Chengyuan Yao, Heng Wang, Qi Han, Yanghua Xiao,
- Abstract要約: 人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。
報酬形成はRLHFを安定させ、報酬ハッキングを部分的に軽減する。
本稿では,報酬形成手法の総合的研究について述べる。
提案手法は,報酬モデル自体に埋め込まれた潜在的嗜好を,強化学習の信号として活用する手法である。
- 参考スコア(独自算出の注目度): 47.71454266800376
- License:
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is essential for aligning large language models (LLMs) with human values. However, RLHF is susceptible to reward hacking, where the agent exploits flaws in the reward function rather than learning the intended behavior, thus degrading alignment. While reward shaping helps stabilize RLHF and partially mitigate reward hacking, a systematic investigation into shaping techniques and their underlying principles remains lacking. To bridge this gap, we present a comprehensive study of the prevalent reward shaping methods. Our analysis suggests three key design principles: (1) RL reward is ideally bounded, (2) RL benefits from rapid initial growth followed by gradual convergence, and (3) RL reward is best formulated as a function of centered reward. Guided by these insights, we propose Preference As Reward (PAR), a novel approach that leverages the latent preferences embedded within the reward model itself as the signal for reinforcement learning. We evaluated PAR on two base models, Gemma2-2B and Llama3-8B, using two datasets, Ultrafeedback-Binarized and HH-RLHF. Experimental results demonstrate PAR's superior performance over other reward shaping methods. On the AlpacaEval 2.0 benchmark, PAR achieves a win rate at least 5 percentage points higher than competing approaches. Furthermore, PAR exhibits remarkable data efficiency, requiring only a single reference reward for optimal performance, and maintains robustness against reward hacking even after two full epochs of training. Code is available at https://github.com/PorUna-byte/PAR.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)と人的価値の整合に不可欠である。
しかし、RLHFはハッキングの報奨を受けやすいため、エージェントは意図した振る舞いを学習するよりも報酬関数の欠陥を利用して、アライメントを低下させる。
報酬形成は、RLHFの安定化と部分的に報酬のハッキングを緩和するのに役立つが、その技術とその基礎となる原則に関する体系的な調査は依然として不十分である。
このギャップを埋めるために、我々は一般的な報酬形成法について包括的に研究する。
分析の結果,(1)RL報酬は理想的に有界であり,(2)急激な初期成長によるRLの恩恵は徐々に収束し,(3)RL報酬は中心的報酬の関数として最適に定式化される,という3つの設計原則が示唆された。
これらの知見に導かれて、報酬モデル自体に潜伏した嗜好を強化学習のシグナルとして活用する新しいアプローチであるPreference As Reward(PAR)を提案する。
我々は、Ultrafeedback-BinarizedとHH-RLHFの2つのデータセットを用いて、Gemma2-2BとLlama3-8Bの2つのベースモデル上でPARを評価した。
実験により、PARは他の報酬形成法よりも優れた性能を示した。
AlpacaEval 2.0ベンチマークでは、PARは競合するアプローチよりも少なくとも5パーセント高い勝利率を達成する。
さらにPARは、優れたデータ効率を示し、最適なパフォーマンスのために1つの参照報酬しか必要とせず、2つのトレーニングの完全な時代が終わった後も、報酬ハッキングに対する堅牢性を維持している。
コードはhttps://github.com/PorUna-byte/PARで入手できる。
関連論文リスト
- Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model [96.20350225621813]
人間からのフィードバックからの強化学習(RLHF)は、言語モデル(LM)を人間の好みに合わせるために広く採用されている。
本稿では,セグメントレベルの報酬モデルを用いて,学習と活用の両面での優位性を追求する。
論文 参考訳(メタデータ) (2025-01-06T06:17:56Z) - Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。
RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文 参考訳(メタデータ) (2024-12-08T17:19:48Z) - T-REG: Preference Optimization with Token-Level Reward Regularization [35.07328450591201]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。
最近の手法ではトークンレベルの報酬を導入してこの制限に対処しようと試みている。
本稿では,トークンレベルの報酬を優先最適化に利用する新しい手法であるトークンレベルの報酬正規化(T-REG)を提案する。
論文 参考訳(メタデータ) (2024-12-03T18:56:07Z) - R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。
両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。
実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文 参考訳(メタデータ) (2023-10-25T16:52:00Z) - Stabilizing RLHF through Advantage Model and Selective Rehearsal [57.504894664689]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、これらのモデルを人間の価値観や好みに合わせることは依然として大きな課題である。
この課題は、報酬のハッキングや破滅的な忘れなど、さまざまな不安定さによって特徴づけられる。
1) 報酬ハッキング防止のために, スコアを直接モデル化し, タスク間のスコア分布を規制するアドバンテージモデル, 2) PPOトレーニングと知識リハーサルのためのデータを戦略的に選択することで, 悲惨な忘れを緩和する選択リハーサルを提案する。
論文 参考訳(メタデータ) (2023-09-18T23:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。