論文の概要: A Long Way to Go: Investigating Length Correlations in RLHF
- arxiv url: http://arxiv.org/abs/2310.03716v1
- Date: Thu, 5 Oct 2023 17:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 13:16:23.821145
- Title: A Long Way to Go: Investigating Length Correlations in RLHF
- Title(参考訳): 長い道のり:RLHFにおける長さ相関の調査
- Authors: Prasann Singhal, Tanya Goyal, Jiacheng Xu, Greg Durrett
- Abstract要約: 本研究では,3つのオープンソース嗜好データセットを用いて学習した報酬モデルに対する報酬と長さの関係について検討した。
RLHFを長さのみに基づく報酬で実行しても、初期ポリシーモデルよりも下流の改善のほとんどを再現できることがわかった。
- 参考スコア(独自算出の注目度): 64.99572519647032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Great successes have been reported using Reinforcement Learning from Human
Feedback (RLHF) to align large language models. Open-source preference datasets
and reward models have enabled wider experimentation beyond generic chat
settings, particularly to make systems more "helpful" for tasks like web
question answering, summarization, and multi-turn dialogue. When optimizing for
helpfulness, RLHF has been consistently observed to drive models to produce
longer outputs. This paper demonstrates that optimizing for response length is
a significant factor behind RLHF's reported improvements in these settings.
First, we study the relationship between reward and length for reward models
trained on three open-source preference datasets for helpfulness. Here, length
correlates strongly with reward, and improvements in reward score are driven in
large part by shifting the distribution over output lengths. We then explore
interventions during both RL and reward model learning to see if we can achieve
the same downstream improvements as RLHF without increasing length. While our
interventions mitigate length increases, they aren't uniformly effective across
settings. Furthermore, we find that even running RLHF with a reward based
solely on length can reproduce most of the downstream improvements over the
initial policy model, showing that reward models in these settings have a long
way to go.
- Abstract(参考訳): 大規模な言語モデルを調整するために、Reinforcement Learning from Human Feedback (RLHF)を用いて大きな成功が報告されている。
オープンソースのプレファレンスデータセットと報酬モデルによって、一般的なチャット設定を超えて、より広範な実験が可能になった。
有用性を最適化する際、RLHFはより長い出力を生み出すためにモデルを動かすために一貫して観察されてきた。
本稿では, 応答長の最適化がRLHFが報告したこれらの設定改善の背景にある重要な要因であることを示す。
まず,3つのオープンソース嗜好データセットを用いて学習した報酬モデルに対する報酬と長さの関係について検討した。
ここでは、長さは報酬と強く相関し、出力長よりも分布をシフトすることで、報酬スコアの改善が大部分で駆動される。
次に、RLと報奨モデル学習の間の介入を探り、RLHFと同じ下流改善を長さを増すことなく達成できるかどうかを確かめる。
私たちの介入は長さを軽減しますが、設定毎に一様に有効ではありません。
さらに、RLHFを長さのみに基づいて実行しても、初期ポリシーモデルよりもダウンストリームの改善のほとんどを再現することができ、これらの設定での報酬モデルには長い道のりがあることが分かる。
関連論文リスト
- PRDP: Proximal Reward Difference Prediction for Large-Scale Reward
Finetuning of Diffusion Models [14.282998450343635]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文 参考訳(メタデータ) (2024-02-13T18:58:16Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - A Framework for Partially Observed Reward-States in RLHF [43.053015263618626]
部分的に観察された報酬状態(PORRL)を用いた強化学習のモデル化
RLHFにおける2つの主要なフィードバック形式から,PORRLに対するフィードバックの基数とデュエル率の低下を示す。
論文 参考訳(メタデータ) (2024-02-05T18:38:55Z) - Improving Reinforcement Learning from Human Feedback with Efficient
Reward Model Ensemble [71.44669705576263]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - UltraFeedback: Boosting Language Models with High-quality Feedback [77.55342076933047]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要な技術となっている。
現在の選好データセットは、プロプライエタリなものか、サイズが限定されているか、あるいはプロプライエタリなものかのいずれかで、オープンソースモデルでのRLHFの採用が制限されている。
本稿では,これらの制限を克服し,RLHF開発を促進するために,大規模で高品質で多様な嗜好データセットを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Deep Reinforcement Learning from Hierarchical Weak Preference Feedback [141.40710994023124]
我々は,新しい実践的強化学習フレームワーク,HERONを提案する。
HERONは、与えられたランクによって誘導される階層的な決定木を用いて軌跡を比較する。
我々のフレームワークは、様々な困難なタスクでハイパフォーマンスエージェントを訓練できるだけでなく、サンプル効率の改善や堅牢性といった付加的なメリットも提供できることがわかりました。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。