論文の概要: The Trickle-down Impact of Reward (In-)consistency on RLHF
- arxiv url: http://arxiv.org/abs/2309.16155v1
- Date: Thu, 28 Sep 2023 04:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 16:10:19.977411
- Title: The Trickle-down Impact of Reward (In-)consistency on RLHF
- Title(参考訳): RLHFにおける逆(In-)整合性のトリクルダウン影響
- Authors: Lingfeng Shen and Sihao Chen and Linfeng Song and Lifeng Jin and
Baolin Peng and Haitao Mi and Daniel Khashabi and Dong Yu
- Abstract要約: 報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
- 参考スコア(独自算出の注目度): 71.37987812944971
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Standard practice within Reinforcement Learning from Human Feedback (RLHF)
involves optimizing against a Reward Model (RM), which itself is trained to
reflect human preferences for desirable generations. A notable subject that is
understudied is the (in-)consistency of RMs -- whether they can recognize the
semantic changes to different prompts and appropriately adapt their reward
assignments -- and their impact on the downstream RLHF model.
In this paper, we visit a series of research questions relevant to RM
inconsistency: (1) How can we measure the consistency of reward models? (2) How
consistent are the existing RMs and how can we improve them? (3) In what ways
does reward inconsistency influence the chatbots resulting from the RLHF model
training?
We propose Contrast Instructions -- a benchmarking strategy for the
consistency of RM. Each example in Contrast Instructions features a pair of
lexically similar instructions with different ground truth responses. A
consistent RM is expected to rank the corresponding instruction and response
higher than other combinations. We observe that current RMs trained with the
standard ranking objective fail miserably on Contrast Instructions compared to
average humans. To show that RM consistency can be improved efficiently without
using extra training budget, we propose two techniques ConvexDA and
RewardFusion, which enhance reward consistency through extrapolation during the
RM training and inference stage, respectively. We show that RLHF models trained
with a more consistent RM yield more useful responses, suggesting that reward
inconsistency exhibits a trickle-down effect on the downstream RLHF process.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) における標準的な実践は、望ましい世代に対する人間の好みを反映するように訓練されたReward Model (RM) に対する最適化である。
注目すべき課題は、RMの(現在)一貫性 -- 異なるプロンプトに対する意味的変化を認識し、報酬の割り当てを適切に適応できるか -- と、下流のRLHFモデルへの影響である。
本稿では,rmの不整合に関する一連の研究課題を考察する:(1)報奨モデルの一貫性をどうやって測定できるのか?
(2)既存のRMはどの程度一貫性があり、どのように改善できるのか?
(3)RLHFモデルトレーニングの結果、報酬の不整合がチャットボットにどのような影響を及ぼすか?
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
コントラスト命令のそれぞれの例は、異なる基底真理応答を持つ語彙的に類似した命令のペアを特徴としている。
一貫性のあるRMは、対応する命令と応答を他の組み合わせよりも高くランク付けすることが期待されている。
平均的な人間に比べて、基準的ランク付け目標で訓練された現在のRMは、コントラスト命令で不運に失敗する。
追加のトレーニング予算を用いることなく、rm一貫性を効率的に改善できることを示すために、rmトレーニングと推論段階での補間による報酬整合性を高めるconvexdaとrewardfusionの2つの手法を提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られ,報奨不整合が下流のRLHFプロセスにトリクルダウン効果を示すことが示唆された。
関連論文リスト
- RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文 参考訳(メタデータ) (2024-06-18T17:58:28Z) - It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF [33.197077764166536]
ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback)は、言語モデルと人間の好みを合わせるためのトレーニングポリシーモデル(PM)と報酬モデル(RM)を含む。
PMとRMを独立に焦点をあてるのではなく、微調整中の相互作用を調べることを提案する。
本研究は、RMとPMの連続的な改善がRLHFの進行に変換されない飽和現象を観察することから始まる。
分析の結果, RMはPM応答に適切なスコアを割り当てず, 人間の嗜好に35%のミスマッチ率を示し, PMとRMの相違が顕著であった。
論文 参考訳(メタデータ) (2024-06-12T07:52:17Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。