論文の概要: Rethinking LLM-based Preference Evaluation
- arxiv url: http://arxiv.org/abs/2407.01085v2
- Date: Thu, 8 Aug 2024 22:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 18:09:10.951945
- Title: Rethinking LLM-based Preference Evaluation
- Title(参考訳): LLMによる嗜好評価の再考
- Authors: Zhengyu Hu, Linxin Song, Jieyu Zhang, Zheyuan Xiao, Jingang Wang, Zhenyu Chen, Hui Xiong,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に基づく嗜好評価における長さバイアスについて検討する。
人間の嗜好ラベル付けはより長い応答を好んでおり、この素早い相関関係は報酬モデルによって学習される。
本稿では,利得率測定のための簡易かつ効果的な調整法であるAdapAlpacaを提案する。
- 参考スコア(独自算出の注目度): 31.82024798324073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of large language model (LLM)-based preference evaluations has become widespread for comparing model responses, but it has revealed a notable bias towards longer responses, questioning the reliability of such evaluations. This paper explores the length bias in LLM evaluations from a data-centric perspective, analyzing 14 commonly used preference datasets and 10 reward models. Our findings indicate that human preference labeling favors longer responses and this spurious correlation is learned by the reward model and subsequently propagated to the aligned model during training. We decompose the preference evaluation metric, i.e., win rate, from the perspective of human to identify the deeper factors and conclude that the win rate is affected by two axes of model response: desirability and information mass, where the former is length-independent and related to trustworthiness, and the latter is length-dependent and can be represented by conditional entropy. Controlled experiments demonstrate that response length impacts evaluations by influencing information mass. To ensure reliable evaluation metrics that assess content quality without being confounded by response length, we propose AdapAlpaca, a simple yet effective adjustment to win rate measurement. Specifically, by adjusting the lengths of reference answers to match the test model's answers within the same interval, we debias information mass relative to length, ensuring a fair model evaluation. Furthermore, we investigate length bias in DPO using AlpacaEval and AdapAlpaca. By testing Tulu2 and Tulu2-dpo at 7B, 13B, and 70B scales, we found that DPO leads to higher human preference, but this gain is amplified by response length, with AlpacaEval showing higher win rates gain than AdapAlpaca.
- Abstract(参考訳): 大規模言語モデル (LLM) に基づく嗜好評価は, モデル応答の比較に広く用いられているが, より長い応答に対する顕著なバイアスが明らかとなり, それらの評価の信頼性に疑問が呈されている。
本稿では、データ中心の観点からLLM評価における長さバイアスについて検討し、14の一般的な好みデータセットと10の報酬モデルを分析した。
以上の結果から,ヒトの嗜好ラベル付けはより長い反応を好むことが示唆され,この素早い相関関係は報酬モデルによって学習され,トレーニング中に一致したモデルに伝播することがわかった。
選好評価指標,すなわち勝率を人間の観点から分解し,より深い要因を同定し,勝率はモデル応答の2つの軸によって影響を受けると結論づける。
制御実験は、応答長が情報量に影響を与えることにより評価に影響を与えることを示した。
応答長によって構成されることなく、コンテンツ品質を評価する信頼性の高い評価指標を確保するために、我々は、利率測定をシンプルかつ効果的に調整するAdapAlpacaを提案する。
具体的には,テストモデルの回答を同じ間隔で一致させるために基準回答の長さを調整することで,情報量と長さを相対的に偏り,公平なモデル評価を確実にする。
さらに,AlpacaEvalとAdapAlpacaを用いたDPOの長さバイアスについて検討した。
7B,13B,70BスケールでTulu2とTulu2-dpoを試験したところ,DPOがヒトの嗜好を高めることが判明したが,この上昇は応答長によって増幅され,AlpacaEvalはAdapAlpacaよりも高い利得を示した。
関連論文リスト
- Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence [31.03305638930844]
DPO(Direct Preference Optimization)は、大規模言語モデルと人間の好みとの直接的かつ堅牢なアライメントのための顕著なアルゴリズムとして登場した。
有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。
また,この問題はDPOのアルゴリズム長依存性にも起因していると考えられる。
論文 参考訳(メタデータ) (2024-06-16T14:24:30Z) - Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators [59.48172585509628]
自動評価におけるバイアスを制御するための簡単な回帰分析手法を提案する。
実ケーススタディとして,チャットLLMのベンチマークであるAlpacaEvalの長さバイアスの低減に着目した。
モデルとベースラインの出力が同じ長さである場合、その好みは何でしょう?
論文 参考訳(メタデータ) (2024-04-06T02:29:02Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z) - Linked shrinkage to improve estimation of interaction effects in
regression models [0.0]
回帰モデルにおける双方向相互作用項によく適応する推定器を開発する。
我々は,選択戦略では難しい推論モデルの可能性を評価する。
私たちのモデルは、かなり大きなサンプルサイズであっても、ランダムな森林のような、より高度な機械学習者に対して非常に競争力があります。
論文 参考訳(メタデータ) (2023-09-25T10:03:39Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。