論文の概要: The Trickle-down Impact of Reward (In-)consistency on RLHF
- arxiv url: http://arxiv.org/abs/2309.16155v1
- Date: Thu, 28 Sep 2023 04:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 16:10:19.977411
- Title: The Trickle-down Impact of Reward (In-)consistency on RLHF
- Title(参考訳): RLHFにおける逆(In-)整合性のトリクルダウン影響
- Authors: Lingfeng Shen and Sihao Chen and Linfeng Song and Lifeng Jin and
Baolin Peng and Haitao Mi and Daniel Khashabi and Dong Yu
- Abstract要約: 報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
- 参考スコア(独自算出の注目度): 71.37987812944971
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Standard practice within Reinforcement Learning from Human Feedback (RLHF)
involves optimizing against a Reward Model (RM), which itself is trained to
reflect human preferences for desirable generations. A notable subject that is
understudied is the (in-)consistency of RMs -- whether they can recognize the
semantic changes to different prompts and appropriately adapt their reward
assignments -- and their impact on the downstream RLHF model.
In this paper, we visit a series of research questions relevant to RM
inconsistency: (1) How can we measure the consistency of reward models? (2) How
consistent are the existing RMs and how can we improve them? (3) In what ways
does reward inconsistency influence the chatbots resulting from the RLHF model
training?
We propose Contrast Instructions -- a benchmarking strategy for the
consistency of RM. Each example in Contrast Instructions features a pair of
lexically similar instructions with different ground truth responses. A
consistent RM is expected to rank the corresponding instruction and response
higher than other combinations. We observe that current RMs trained with the
standard ranking objective fail miserably on Contrast Instructions compared to
average humans. To show that RM consistency can be improved efficiently without
using extra training budget, we propose two techniques ConvexDA and
RewardFusion, which enhance reward consistency through extrapolation during the
RM training and inference stage, respectively. We show that RLHF models trained
with a more consistent RM yield more useful responses, suggesting that reward
inconsistency exhibits a trickle-down effect on the downstream RLHF process.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) における標準的な実践は、望ましい世代に対する人間の好みを反映するように訓練されたReward Model (RM) に対する最適化である。
注目すべき課題は、RMの(現在)一貫性 -- 異なるプロンプトに対する意味的変化を認識し、報酬の割り当てを適切に適応できるか -- と、下流のRLHFモデルへの影響である。
本稿では,rmの不整合に関する一連の研究課題を考察する:(1)報奨モデルの一貫性をどうやって測定できるのか?
(2)既存のRMはどの程度一貫性があり、どのように改善できるのか?
(3)RLHFモデルトレーニングの結果、報酬の不整合がチャットボットにどのような影響を及ぼすか?
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
コントラスト命令のそれぞれの例は、異なる基底真理応答を持つ語彙的に類似した命令のペアを特徴としている。
一貫性のあるRMは、対応する命令と応答を他の組み合わせよりも高くランク付けすることが期待されている。
平均的な人間に比べて、基準的ランク付け目標で訓練された現在のRMは、コントラスト命令で不運に失敗する。
追加のトレーニング予算を用いることなく、rm一貫性を効率的に改善できることを示すために、rmトレーニングと推論段階での補間による報酬整合性を高めるconvexdaとrewardfusionの2つの手法を提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られ,報奨不整合が下流のRLHFプロセスにトリクルダウン効果を示すことが示唆された。
関連論文リスト
- Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - PERL: Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の好みを結びつける強力な手法であることが証明されている。
本稿では,Huらによって導入されたLoRA(Lo-Rank Adaptation)のパラメータ効率向上手法を用いて,基礎となるモデルを学習するRLHFについて検討する。
PERLは従来のRLHF設定と同等に動作し、高速かつ少ないメモリでトレーニングを行う。
論文 参考訳(メタデータ) (2024-03-15T21:43:46Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling [0.0]
我々は、Mixture-of-Experts(MoE)のアイデアを、報酬モデル(RM)トレーニングの分野に導入する。
特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。
我々のモデルは、人間の嗜好との整合性に優れ、先進的な生成アプローチを実現する。
論文 参考訳(メタデータ) (2024-03-02T12:31:22Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。