論文の概要: A Long Way to Go: Investigating Length Correlations in RLHF
- arxiv url: http://arxiv.org/abs/2310.03716v1
- Date: Thu, 5 Oct 2023 17:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 13:16:23.821145
- Title: A Long Way to Go: Investigating Length Correlations in RLHF
- Title(参考訳): 長い道のり:RLHFにおける長さ相関の調査
- Authors: Prasann Singhal, Tanya Goyal, Jiacheng Xu, Greg Durrett
- Abstract要約: 本研究では,3つのオープンソース嗜好データセットを用いて学習した報酬モデルに対する報酬と長さの関係について検討した。
RLHFを長さのみに基づく報酬で実行しても、初期ポリシーモデルよりも下流の改善のほとんどを再現できることがわかった。
- 参考スコア(独自算出の注目度): 64.99572519647032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Great successes have been reported using Reinforcement Learning from Human
Feedback (RLHF) to align large language models. Open-source preference datasets
and reward models have enabled wider experimentation beyond generic chat
settings, particularly to make systems more "helpful" for tasks like web
question answering, summarization, and multi-turn dialogue. When optimizing for
helpfulness, RLHF has been consistently observed to drive models to produce
longer outputs. This paper demonstrates that optimizing for response length is
a significant factor behind RLHF's reported improvements in these settings.
First, we study the relationship between reward and length for reward models
trained on three open-source preference datasets for helpfulness. Here, length
correlates strongly with reward, and improvements in reward score are driven in
large part by shifting the distribution over output lengths. We then explore
interventions during both RL and reward model learning to see if we can achieve
the same downstream improvements as RLHF without increasing length. While our
interventions mitigate length increases, they aren't uniformly effective across
settings. Furthermore, we find that even running RLHF with a reward based
solely on length can reproduce most of the downstream improvements over the
initial policy model, showing that reward models in these settings have a long
way to go.
- Abstract(参考訳): 大規模な言語モデルを調整するために、Reinforcement Learning from Human Feedback (RLHF)を用いて大きな成功が報告されている。
オープンソースのプレファレンスデータセットと報酬モデルによって、一般的なチャット設定を超えて、より広範な実験が可能になった。
有用性を最適化する際、RLHFはより長い出力を生み出すためにモデルを動かすために一貫して観察されてきた。
本稿では, 応答長の最適化がRLHFが報告したこれらの設定改善の背景にある重要な要因であることを示す。
まず,3つのオープンソース嗜好データセットを用いて学習した報酬モデルに対する報酬と長さの関係について検討した。
ここでは、長さは報酬と強く相関し、出力長よりも分布をシフトすることで、報酬スコアの改善が大部分で駆動される。
次に、RLと報奨モデル学習の間の介入を探り、RLHFと同じ下流改善を長さを増すことなく達成できるかどうかを確かめる。
私たちの介入は長さを軽減しますが、設定毎に一様に有効ではありません。
さらに、RLHFを長さのみに基づいて実行しても、初期ポリシーモデルよりもダウンストリームの改善のほとんどを再現することができ、これらの設定での報酬モデルには長い道のりがあることが分かる。
関連論文リスト
- LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。
実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文 参考訳(メタデータ) (2024-10-28T17:50:42Z) - How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - Measuring memorization in RLHF for code completion [18.3607188787591]
人間のフィードバックによる強化学習(RLHF)が,大規模モデルをユーザの好みに合わせる主要な手法となっている。
我々は、RLHFの各フェーズと直接選好学習を通じて、トレーニングデータの記憶がどのように表出し、伝播するかを分析する。
我々の研究は、RLHFが直接選好学習とは対照的に、大きな言語モデルを調整する際に、センシティブな選好データを抽出するリスクを軽減するための、より安全な方法であることを示唆している。
論文 参考訳(メタデータ) (2024-06-17T16:33:35Z) - Disentangling Length from Quality in Direct Preference Optimization [93.74831404396174]
RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。
RLHFは、冗長性のような人間の嗜好のバイアスを利用することが知られている。
我々は,モデル品質の改善を維持しつつ,長さの搾取を防止するための基本的かつ単純な正規化戦略を開発する。
論文 参考訳(メタデータ) (2024-03-28T06:03:47Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。