論文の概要: Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs
- arxiv url: http://arxiv.org/abs/2406.10216v1
- Date: Fri, 14 Jun 2024 17:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 12:27:23.253141
- Title: Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs
- Title(参考訳): 正規化隠れ状態はLLMの一般化リワードモデル学習を可能にする
- Authors: Rui Yang, Ruomeng Ding, Yong Lin, Huan Zhang, Tong Zhang,
- Abstract要約: 人間の嗜好データに基づいてトレーニングされたリワードモデルは、大規模言語モデルと人間の意図を一致させるのに有効であることが証明されている。
しかし、現在の報酬モデルの無意味なプロンプトや応答に対する一般化能力は限られている。
本研究は,隠れ状態の正規化による分布シフトに対する報酬モデルの一般化能力を向上するための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 25.011675414622392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models trained on human preference data have been proven to be effective for aligning Large Language Models (LLMs) with human intent within the reinforcement learning from human feedback (RLHF) framework. However, the generalization capabilities of current reward models to unseen prompts and responses are limited. This limitation can lead to an unexpected phenomenon known as reward over-optimization, where excessive optimization of rewards results in a decline in actual performance. While previous research has advocated for constraining policy optimization, our study proposes a novel approach to enhance the reward model's generalization ability against distribution shifts by regularizing the hidden states. Specifically, we retain the base model's language model head and incorporate a suite of text-generation losses to preserve the hidden states' text generation capabilities, while concurrently learning a reward head behind the same hidden states. Our experimental results demonstrate that the introduced regularization technique markedly improves the accuracy of learned reward models across a variety of out-of-distribution (OOD) tasks and effectively alleviate the over-optimization issue in RLHF, offering a more reliable and robust preference learning paradigm.
- Abstract(参考訳): 人間の嗜好データに基づいてトレーニングされたリワードモデルは、人間のフィードバック(RLHF)フレームワークからの強化学習において、大規模言語モデル(LLM)と人間の意図とを整合させるのに有効であることが証明されている。
しかし、現在の報酬モデルの無意味なプロンプトや応答に対する一般化能力は限られている。
この制限は、報酬過度最適化と呼ばれる予期せぬ現象を引き起こし、報酬の過度な最適化によって実際のパフォーマンスが低下する。
従来,政策最適化の制約を提唱してきたが,本研究では,隠蔽状態の正規化による分布シフトに対する報酬モデルの一般化能力を向上するための新しいアプローチを提案する。
具体的には、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成能力を保ちながら、同じ隠れた状態の背後にある報酬ヘッドを同時に学習する。
実験の結果,導入した正規化手法は,様々なアウト・オブ・ディストリビューション(OOD)タスクにおける学習報酬モデルの精度を著しく向上し,RLHFにおける過度な最適化問題を効果的に緩和し,より信頼性が高く堅牢な選好学習パラダイムを提供することを示した。
関連論文リスト
- Prototypical Reward Network for Data-Efficient RLHF [17.220998116937444]
RLHF(Reinforcement Learning from Human Feedback)の報奨モデルが大規模言語モデル(LLM)の微調整に有効であることが証明された。
提案するフレームワークであるProto-RMは,人間からのフィードバックに制限された報酬モデルを改善するために,プロトタイプネットワークを活用している。
論文 参考訳(メタデータ) (2024-06-06T15:23:30Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
Reinforcement Learning from Human Feedback (RLHF)のような最先端技術は、しばしば2つの段階から構成される。
1)教師付き微調整(SFT)では,人間の実演データからモデルを微調整する。
2)選好学習では,選好データを用いて報奨モデルを学習し,そのモデルを微調整する強化学習ステップで活用する。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Towards Understanding the Influence of Reward Margin on Preference Model Performance [8.891183078634786]
本研究では,人間のアノテータからの詳細なラベルを必要とせず,好みの違いを推定する新しい手法を提案する。
実験の結果,トレーニングプロセスにマージン値を組み込むことで,報酬モデルの有効性が著しく向上することを示す実証的証拠が得られた。
論文 参考訳(メタデータ) (2024-04-07T12:10:04Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Generalizing Reward Modeling for Out-of-Distribution Preference Learning [3.9160947065896803]
大規模言語モデル(LLM)による嗜好学習は、LLM世代を人間の嗜好に合わせることを目的としている。
人間のフィードバックを得るのが難しいため、遭遇した各分布に対する報酬モデルを個別に訓練することは困難である。
本研究は,メタラーニングアプローチによる一般報酬モデルの最適化により,OOD PLに対処する。
論文 参考訳(メタデータ) (2024-02-22T18:20:33Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - West-of-N: Synthetic Preference Generation for Improved Reward Modeling [20.897381726408838]
合成選好データを生成することによって報酬モデルの品質を向上させる新しい手法を提案する。
提案手法は,同量の人選好データの追加に匹敵する効果で,報酬モデルの性能向上を図っている。
論文 参考訳(メタデータ) (2024-01-22T16:24:43Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。