Fugu-MT 論文翻訳(概要): A Long Way to Go: Investigating Length Correlations in RLHF

論文の概要: A Long Way to Go: Investigating Length Correlations in RLHF

arxiv url: http://arxiv.org/abs/2310.03716v2
Date: Wed, 10 Jul 2024 23:15:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 23:47:33.473090
Title: A Long Way to Go: Investigating Length Correlations in RLHF
Title（参考訳）: 長い道のり:RLHFにおける長さ相関の調査
Authors: Prasann Singhal, Tanya Goyal, Jiacheng Xu, Greg Durrett,
Abstract要約: 本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
参考スコア（独自算出の注目度）: 59.49656695716066
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Great success has been reported using Reinforcement Learning from Human Feedback (RLHF) to align large language models, with open preference datasets enabling wider experimentation, particularly for "helpfulness" in tasks like dialogue and web question answering. Alongside these improvements, however, RLHF also often drives models to produce longer outputs. This paper demonstrates, on three diverse settings, that optimizing for response length is, much more than previously thought, a significant factor behind RLHF. Studying the strategies RL optimization uses to maximize reward, we find improvements in reward to largely be driven by increasing response length, instead of other features. Indeed, we find that even a purely length-based reward reproduces most downstream RLHF improvements over supervised fine-tuned models. Testing a comprehensive set of length-countering interventions, we identify the dominant source of these biases to be reward models, which, by studying training dynamics, we find are non-robust and easily influenced by length biases in preference data.
Abstract（参考訳）: Reinforcement Learning from Human Feedback (RLHF) を用いて大規模な言語モデルを調整し、特に対話やウェブ質問応答といったタスクにおいて、より広範な実験を可能にするオープンな嗜好データセットで大きな成功を収めたと報告されている。しかしながら、これらの改善に加えて、RLHFはしばしばより長い出力を生成するためにモデルを駆動する。本稿では,RLHFの背後にある重要な要因として,応答長の最適化がこれまで考えられてきたよりもはるかに多いことを3つの多様な設定で示す。 RL最適化が報酬を最大化するために利用する戦略を研究すると、報酬の改善は、他の機能ではなく、応答長の増加によって大きく促進される。実際、純粋に長さに基づく報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現することがわかった。包括的長さ計数介入テストを行い、これらのバイアスの主源を報酬モデルとし、トレーニング力学の研究により、選好データにおける長さ計数バイアスの影響を受けやすいことが判明した。

関連論文リスト

Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文参考訳（メタデータ） (2025-05-19T08:29:28Z)
Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。簡潔さと正確さの自然な相関関係を明らかにする。 RLポストトレーニングの第2フェーズの導入は、小さな問題と限られた資源を用いて、モデルの思考連鎖を著しく減少させることが示される。
論文参考訳（メタデータ） (2025-04-07T15:35:54Z)
Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback [12.7099489697479]
本稿では、推論タスク検証器(RTV)と生成報酬モデル(GenRM)を組み合わせたハイブリッド報酬システムを導入し、報酬ハッキングを緩和する。また,応答の多様性を維持し,学習効率を高めるために,新しいプロンプト選択手法であるPre-PPOを提案する。
論文参考訳（メタデータ） (2025-03-28T08:26:41Z)
Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
本稿では,応答条件付きBradley-Terryモデルを提案する。また、大規模言語モデルの直接ポリシー最適化(DPO)にRc-BTモデルを利用するRc-DPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-02T14:50:25Z)
Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。 RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文参考訳（メタデータ） (2024-12-08T17:19:48Z)
LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文参考訳（メタデータ） (2024-10-28T17:50:42Z)
How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文参考訳（メタデータ） (2024-10-18T21:38:21Z)
Measuring memorization in RLHF for code completion [18.3607188787591]
人間のフィードバックによる強化学習(RLHF)が,大規模モデルをユーザの好みに合わせる主要な手法となっている。我々は、RLHFの各フェーズと直接選好学習を通じて、トレーニングデータの記憶がどのように表出し、伝播するかを分析する。我々の研究は、RLHFが直接選好学習とは対照的に、大きな言語モデルを調整する際に、センシティブな選好データを抽出するリスクを軽減するための、より安全な方法であることを示唆している。
論文参考訳（メタデータ） (2024-06-17T16:33:35Z)
Disentangling Length from Quality in Direct Preference Optimization [93.74831404396174]
RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。 RLHFは、冗長性のような人間の嗜好のバイアスを利用することが知られている。我々は,モデル品質の改善を維持しつつ,長さの搾取を防止するための基本的かつ単純な正規化戦略を開発する。
論文参考訳（メタデータ） (2024-03-28T06:03:47Z)
ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。 LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文参考訳（メタデータ） (2024-02-11T22:40:12Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文参考訳（メタデータ） (2023-10-31T21:52:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。