論文の概要: A Long Way to Go: Investigating Length Correlations in RLHF
- arxiv url: http://arxiv.org/abs/2310.03716v2
- Date: Wed, 10 Jul 2024 23:15:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 23:47:33.473090
- Title: A Long Way to Go: Investigating Length Correlations in RLHF
- Title(参考訳): 長い道のり:RLHFにおける長さ相関の調査
- Authors: Prasann Singhal, Tanya Goyal, Jiacheng Xu, Greg Durrett,
- Abstract要約: 本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
- 参考スコア(独自算出の注目度): 59.49656695716066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Great success has been reported using Reinforcement Learning from Human Feedback (RLHF) to align large language models, with open preference datasets enabling wider experimentation, particularly for "helpfulness" in tasks like dialogue and web question answering. Alongside these improvements, however, RLHF also often drives models to produce longer outputs. This paper demonstrates, on three diverse settings, that optimizing for response length is, much more than previously thought, a significant factor behind RLHF. Studying the strategies RL optimization uses to maximize reward, we find improvements in reward to largely be driven by increasing response length, instead of other features. Indeed, we find that even a purely length-based reward reproduces most downstream RLHF improvements over supervised fine-tuned models. Testing a comprehensive set of length-countering interventions, we identify the dominant source of these biases to be reward models, which, by studying training dynamics, we find are non-robust and easily influenced by length biases in preference data.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) を用いて大規模な言語モデルを調整し、特に対話やウェブ質問応答といったタスクにおいて、より広範な実験を可能にするオープンな嗜好データセットで大きな成功を収めたと報告されている。
しかしながら、これらの改善に加えて、RLHFはしばしばより長い出力を生成するためにモデルを駆動する。
本稿では,RLHFの背後にある重要な要因として,応答長の最適化がこれまで考えられてきたよりもはるかに多いことを3つの多様な設定で示す。
RL最適化が報酬を最大化するために利用する戦略を研究すると、報酬の改善は、他の機能ではなく、応答長の増加によって大きく促進される。
実際、純粋に長さに基づく報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現することがわかった。
包括的長さ計数介入テストを行い、これらのバイアスの主源を報酬モデルとし、トレーニング力学の研究により、選好データにおける長さ計数バイアスの影響を受けやすいことが判明した。
関連論文リスト
- Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
本稿では,応答条件付きBradley-Terryモデルを提案する。
また、大規模言語モデルの直接ポリシー最適化(DPO)にRc-BTモデルを利用するRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。
RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文 参考訳(メタデータ) (2024-12-08T17:19:48Z) - How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - Measuring memorization in RLHF for code completion [18.3607188787591]
人間のフィードバックによる強化学習(RLHF)が,大規模モデルをユーザの好みに合わせる主要な手法となっている。
我々は、RLHFの各フェーズと直接選好学習を通じて、トレーニングデータの記憶がどのように表出し、伝播するかを分析する。
我々の研究は、RLHFが直接選好学習とは対照的に、大きな言語モデルを調整する際に、センシティブな選好データを抽出するリスクを軽減するための、より安全な方法であることを示唆している。
論文 参考訳(メタデータ) (2024-06-17T16:33:35Z) - Disentangling Length from Quality in Direct Preference Optimization [93.74831404396174]
RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。
RLHFは、冗長性のような人間の嗜好のバイアスを利用することが知られている。
我々は,モデル品質の改善を維持しつつ,長さの搾取を防止するための基本的かつ単純な正規化戦略を開発する。
論文 参考訳(メタデータ) (2024-03-28T06:03:47Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。