論文の概要: Rethinking LLM-based Preference Evaluation
- arxiv url: http://arxiv.org/abs/2407.01085v2
- Date: Thu, 8 Aug 2024 22:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 18:09:10.951945
- Title: Rethinking LLM-based Preference Evaluation
- Title(参考訳): LLMによる嗜好評価の再考
- Authors: Zhengyu Hu, Linxin Song, Jieyu Zhang, Zheyuan Xiao, Jingang Wang, Zhenyu Chen, Hui Xiong,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に基づく嗜好評価における長さバイアスについて検討する。
人間の嗜好ラベル付けはより長い応答を好んでおり、この素早い相関関係は報酬モデルによって学習される。
本稿では,利得率測定のための簡易かつ効果的な調整法であるAdapAlpacaを提案する。
- 参考スコア(独自算出の注目度): 31.82024798324073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of large language model (LLM)-based preference evaluations has become widespread for comparing model responses, but it has revealed a notable bias towards longer responses, questioning the reliability of such evaluations. This paper explores the length bias in LLM evaluations from a data-centric perspective, analyzing 14 commonly used preference datasets and 10 reward models. Our findings indicate that human preference labeling favors longer responses and this spurious correlation is learned by the reward model and subsequently propagated to the aligned model during training. We decompose the preference evaluation metric, i.e., win rate, from the perspective of human to identify the deeper factors and conclude that the win rate is affected by two axes of model response: desirability and information mass, where the former is length-independent and related to trustworthiness, and the latter is length-dependent and can be represented by conditional entropy. Controlled experiments demonstrate that response length impacts evaluations by influencing information mass. To ensure reliable evaluation metrics that assess content quality without being confounded by response length, we propose AdapAlpaca, a simple yet effective adjustment to win rate measurement. Specifically, by adjusting the lengths of reference answers to match the test model's answers within the same interval, we debias information mass relative to length, ensuring a fair model evaluation. Furthermore, we investigate length bias in DPO using AlpacaEval and AdapAlpaca. By testing Tulu2 and Tulu2-dpo at 7B, 13B, and 70B scales, we found that DPO leads to higher human preference, but this gain is amplified by response length, with AlpacaEval showing higher win rates gain than AdapAlpaca.
- Abstract(参考訳): 大規模言語モデル (LLM) に基づく嗜好評価は, モデル応答の比較に広く用いられているが, より長い応答に対する顕著なバイアスが明らかとなり, それらの評価の信頼性に疑問が呈されている。
本稿では、データ中心の観点からLLM評価における長さバイアスについて検討し、14の一般的な好みデータセットと10の報酬モデルを分析した。
以上の結果から,ヒトの嗜好ラベル付けはより長い反応を好むことが示唆され,この素早い相関関係は報酬モデルによって学習され,トレーニング中に一致したモデルに伝播することがわかった。
選好評価指標,すなわち勝率を人間の観点から分解し,より深い要因を同定し,勝率はモデル応答の2つの軸によって影響を受けると結論づける。
制御実験は、応答長が情報量に影響を与えることにより評価に影響を与えることを示した。
応答長によって構成されることなく、コンテンツ品質を評価する信頼性の高い評価指標を確保するために、我々は、利率測定をシンプルかつ効果的に調整するAdapAlpacaを提案する。
具体的には,テストモデルの回答を同じ間隔で一致させるために基準回答の長さを調整することで,情報量と長さを相対的に偏り,公平なモデル評価を確実にする。
さらに,AlpacaEvalとAdapAlpacaを用いたDPOの長さバイアスについて検討した。
7B,13B,70BスケールでTulu2とTulu2-dpoを試験したところ,DPOがヒトの嗜好を高めることが判明したが,この上昇は応答長によって増幅され,AlpacaEvalはAdapAlpacaよりも高い利得を示した。
関連論文リスト
- Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Challenges and Considerations in the Evaluation of Bayesian Causal Discovery [49.0053848090947]
因果発見の不確実性を表現することは、実験設計において重要な要素であり、より広く、安全で信頼性の高い因果決定のために重要である。
単一の推定因果グラフとモデルパラメータによる評価に依存する非ベイズ因果発見とは異なり、因果発見はその量の性質に起因する課題を提示する。
評価に最も適した指標についてのコンセンサスはない。
論文 参考訳(メタデータ) (2024-06-05T12:45:23Z) - CASPR: Automated Evaluation Metric for Contrastive Summarization [4.310460539747285]
本稿では,一対の要約のコントラストをよりよく測定するための自動評価指標CASPRを提案する。
従来のデータセットであるCoCoTRIPによる結果から,CASPRは,ベースラインと比較して,要約ペアのコントラスト性をより確実に捉えることができることが示された。
論文 参考訳(メタデータ) (2024-04-23T23:27:29Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - User and Item-aware Estimation of Review Helpfulness [4.640835690336653]
有用性決定因子としてのレビューの性質における逸脱の役割について検討する。
本稿では,従来のものを拡張した新しい有用性推定モデルを提案する。
そこで本モデルは,意思決定におけるユーザフィードバックの選択に有効なツールである。
論文 参考訳(メタデータ) (2020-11-20T15:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。