論文の概要: Rethinking LLM-based Preference Evaluation
- arxiv url: http://arxiv.org/abs/2407.01085v1
- Date: Mon, 1 Jul 2024 08:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 22:19:31.938849
- Title: Rethinking LLM-based Preference Evaluation
- Title(参考訳): LLMによる嗜好評価の再考
- Authors: Zhengyu Hu, Linxin Song, Jieyu Zhang, Zheyuan Xiao, Jingang Wang, Zhenyu Chen, Jieyu Zhao, Hui Xiong,
- Abstract要約: 大規模言語モデル(LLM)に基づく嗜好評価は、モデル応答のペアを比較するために広く採用されている。
長大な応答に対する深刻なバイアスが観察されており、この評価手法の信頼性に対する懸念が高まっている。
- 参考スコア(独自算出の注目度): 38.62663118795261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large language model (LLM)-based preference evaluation has been widely adopted to compare pairs of model responses. However, a severe bias towards lengthy responses has been observed, raising concerns about the reliability of this evaluation method. In this work, we designed a series of controlled experiments to study the major impacting factors of the metric of LLM-based preference evaluation, i.e., win rate, and conclude that the win rate is affected by two axes of model response: desirability and information mass, where the former is length-independent and related to trustworthiness, and the latter is length-dependent and can be represented by conditional entropy. We find that length impacts the existing evaluations by influencing information mass. However, a reliable evaluation metric should not only assess content quality but also ensure that the assessment is not confounded by extraneous factors such as response length. Therefore, we propose a simple yet effective adjustment, AdapAlpaca, to the existing practice of win rate measurement. Specifically, by adjusting the lengths of reference answers to match the test model's answers within the same interval, we debias information mass relative to length, ensuring a fair model evaluation.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)に基づく嗜好評価が,モデル応答のペアを比較するために広く採用されている。
しかし, 長大な応答に対する偏りが観察されており, この評価手法の信頼性への懸念が高まっている。
本研究では, LLMによる選好評価の指標,すなわち, 勝利率に影響を及ぼす要因を検討するための一連の制御実験を設計し, 勝利率は2軸のモデル応答によって影響を受けると結論付けた。
情報量に影響を与えることで,既存の評価に長さが影響していることが判明した。
しかし、信頼性の高い評価基準は、コンテンツ品質を評価するだけでなく、応答長などの外部要因によって評価が確立されないことを保証すべきである。
そこで本研究では,既存の利率測定の実践に対して,簡易かつ効果的な調整法であるAdapAlpacaを提案する。
具体的には,テストモデルの回答を同じ間隔で一致させるために基準回答の長さを調整することで,情報量と長さを相対的に偏り,公平なモデル評価を確実にする。
関連論文リスト
- Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence [31.03305638930844]
DPO(Direct Preference Optimization)は、大規模言語モデルと人間の好みとの直接的かつ堅牢なアライメントのための顕著なアルゴリズムとして登場した。
有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。
また,この問題はDPOのアルゴリズム長依存性にも起因していると考えられる。
論文 参考訳(メタデータ) (2024-06-16T14:24:30Z) - Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators [59.48172585509628]
自動評価におけるバイアスを制御するための簡単な回帰分析手法を提案する。
実ケーススタディとして,チャットLLMのベンチマークであるAlpacaEvalの長さバイアスの低減に着目した。
モデルとベースラインの出力が同じ長さである場合、その好みは何でしょう?
論文 参考訳(メタデータ) (2024-04-06T02:29:02Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z) - Linked shrinkage to improve estimation of interaction effects in
regression models [0.0]
回帰モデルにおける双方向相互作用項によく適応する推定器を開発する。
我々は,選択戦略では難しい推論モデルの可能性を評価する。
私たちのモデルは、かなり大きなサンプルサイズであっても、ランダムな森林のような、より高度な機械学習者に対して非常に競争力があります。
論文 参考訳(メタデータ) (2023-09-25T10:03:39Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。