論文の概要: It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF
- arxiv url: http://arxiv.org/abs/2406.07971v2
- Date: Thu, 13 Jun 2024 05:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 11:35:08.658389
- Title: It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF
- Title(参考訳): RLHFにおけるリワードと政策モデル間のシームレス性について
- Authors: Taiming Lu, Lingfeng Shen, Xinyu Yang, Weiting Tan, Beidi Chen, Huaxiu Yao,
- Abstract要約: ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback)は、言語モデルと人間の好みを合わせるためのトレーニングポリシーモデル(PM)と報酬モデル(RM)を含む。
PMとRMを独立に焦点をあてるのではなく、微調整中の相互作用を調べることを提案する。
本研究は、RMとPMの連続的な改善がRLHFの進行に変換されない飽和現象を観察することから始まる。
分析の結果, RMはPM応答に適切なスコアを割り当てず, 人間の嗜好に35%のミスマッチ率を示し, PMとRMの相違が顕著であった。
- 参考スコア(独自算出の注目度): 33.197077764166536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) involves training policy models (PMs) and reward models (RMs) to align language models with human preferences. Instead of focusing solely on PMs and RMs independently, we propose to examine their interactions during fine-tuning, introducing the concept of seamlessness. Our study starts with observing the saturation phenomenon, where continual improvements in RM and PM do not translate into RLHF progress. Our analysis shows that RMs fail to assign proper scores to PM responses, resulting in a 35% mismatch rate with human preferences, highlighting a significant discrepancy between PM and RM. To measure seamlessness between PM and RM without human effort, we propose an automatic metric, SEAM. SEAM quantifies the discrepancies between PM and RM judgments induced by data samples. We validate the effectiveness of SEAM in data selection and model augmentation. Our experiments demonstrate that (1) using SEAM-filtered data for RL training improves RLHF performance by 4.5%, and (2) SEAM-guided model augmentation results in a 4% performance improvement over standard augmentation methods.
- Abstract(参考訳): ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback、RLHF)は、言語モデルと人間の好みを合わせるためのトレーニングポリシーモデル(PM)と報酬モデル(RM)を含む。
PMとRMを独立に焦点をあてるのではなく、微調整中の相互作用を検証し、シームレス性の概念を導入することを提案する。
本研究は、RMとPMの連続的な改善がRLHFの進行に変換されない飽和現象を観察することから始まる。
分析の結果, RMはPM応答に適切なスコアを割り当てず, 人間の嗜好に35%のミスマッチ率を示し, PMとRMの相違が顕著であった。
ヒトの努力を伴わずにPMとRMのシームレス性を計測するために,自動計量SEAMを提案する。
SEAMは、データサンプルによって誘導されるPMとRMの判断の相違を定量化する。
データ選択とモデル拡張におけるSEAMの有効性を検証する。
RLトレーニングにSEAMフィルタデータを用いることでRLHFの性能は4.5%向上し,(2)SEAM誘導モデル拡張は標準拡張法よりも4%向上することを示した。
関連論文リスト
- Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文 参考訳(メタデータ) (2024-06-18T17:58:28Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - The Trickle-down Impact of Reward (In-)consistency on RLHF [71.37987812944971]
報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T04:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。