論文の概要: The Comparative Trap: Pairwise Comparisons Amplifies Biased Preferences of LLM Evaluators
- arxiv url: http://arxiv.org/abs/2406.12319v3
- Date: Wed, 16 Oct 2024 13:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:39:08.943800
- Title: The Comparative Trap: Pairwise Comparisons Amplifies Biased Preferences of LLM Evaluators
- Title(参考訳): LLM評価器のバイアス優先性を示す比較トラップ:ペアワイズ比較
- Authors: Hawon Jeong, ChaeHun Park, Jimin Hong, Hojoon Lee, Jaegul Choo,
- Abstract要約: 大規模言語モデル (LLM) は、自然言語生成タスクの評価器としてますます使われている。
LLMは、冗長性や権威的なトーンを好むなど、バイアスのある好みを示す。
ペアワイズフレームワークにポイントワイズ推論を統合するPRePairを導入する。
- 参考スコア(独自算出の注目度): 31.520403357740317
- License:
- Abstract: As large language models (LLMs) are increasingly used as evaluators for natural language generation tasks, ensuring unbiased assessments is essential. However, LLM evaluators often display biased preferences, such as favoring verbosity and authoritative tones. Our empirical analysis reveals that these biases are exacerbated in pairwise evaluation, where LLMs directly compare two outputs and easily prioritize superficial attributes. In contrast, pointwise evaluation, which assesses outputs independently, is less susceptible to such bias because each output is judged in isolation. To address the limitations of the pairwise evaluation, we introduce a novel evaluation method, PRePair, which integrates pointwise reasoning within a pairwise framework. PRePair effectively alleviates biased preference, improving performance on the adversarial benchmark (LLMBar) while outperforming pointwise evaluation on the standard benchmark (MT-Bench).
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語生成タスクの評価ツールとしてますます使われてきているため、偏見のない評価が不可欠である。
しかし、LLM評価者は、冗長性や権威的な音色を好むなど、バイアスのある好みを示すことが多い。
LLMは2つの出力を直接比較し、表面特性を容易に優先順位付けする。
対照的に、アウトプットを独立に評価するポイントワイド評価は、それぞれのアウトプットが独立に判断されるため、そのようなバイアスの影響を受けにくい。
ペアワイズ評価の限界に対処するために,ペアワイズフレームワークにポイントワイズ推論を統合する新しい評価手法であるPRePairを導入する。
PRePairは、バイアスのある選好を効果的に軽減し、標準ベンチマーク(MT-Bench)でポイントワイズ評価を上回りながら、逆ベンチマーク(LLMBar)のパフォーマンスを改善します。
関連論文リスト
- Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
GEDは,モデルランキング,応答選択,モデルアライメントタスクにおいて,ベースライン手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Compare without Despair: Reliable Preference Evaluation with Generation Separability [20.50638483427141]
テストインスタンスがペアの選好評価にどの程度適しているかを推定する尺度であるセパビリティ(Separability)を導入する。
候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。
実験により、分離性が高いインスタンスは、人間と自動レーダの両方からより一貫した選好格付けが得られることが示された。
論文 参考訳(メタデータ) (2024-07-02T01:37:56Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - CASPR: Automated Evaluation Metric for Contrastive Summarization [4.310460539747285]
本稿では,一対の要約のコントラストをよりよく測定するための自動評価指標CASPRを提案する。
従来のデータセットであるCoCoTRIPによる結果から,CASPRは,ベースラインと比較して,要約ペアのコントラスト性をより確実に捉えることができることが示された。
論文 参考訳(メタデータ) (2024-04-23T23:27:29Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。