論文の概要: On the Adversarial Vulnerability of Pairwise Evaluation Using Large Language Models
- arxiv url: http://arxiv.org/abs/2406.12319v2
- Date: Thu, 03 Oct 2024 09:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:30:28.325999
- Title: On the Adversarial Vulnerability of Pairwise Evaluation Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたペアワイズ評価の敵対的脆弱性について
- Authors: Hawon Jeong, ChaeHun Park, Jimin Hong, Jaegul Choo,
- Abstract要約: 大規模言語モデル (LLM) を用いたペアワイズ評価は, 出力評価に広く採用されている。
評価設定自体が、ペアワイズ評価器がポイントワイズ評価器よりも望ましくない傾向を示す場合、バイアスを大幅に増幅できることがわかった。
また, 簡単な治療法として, ポイントワイズ推論をペアワイズ評価に取り入れることを提案する。
- 参考スコア(独自算出の注目度): 32.54783419675456
- License:
- Abstract: Pairwise evaluation using large language models (LLMs) is widely adopted for evaluating generated outputs. However, the reliability of LLM evaluators is often compromised by their biased preferences, such as favoring verbosity and an authoritative tone. In this work, we find that the evaluation setup itself can significantly amplify these biases, where pairwise evaluators exhibit more undesirable tendencies than pointwise evaluators. Our analysis further reveals that even when pairwise evaluators make incorrect judgments, they can still accurately identify shortcomings in low-quality outputs. As a simple remedy, we also propose incorporating pointwise reasoning into pairwise evaluation. Experimental results show that our method improves the performance of pairwise evaluators on adversarial samples across various models. We hope our findings encourage further exploration into the reliability of LLM evaluators.
- Abstract(参考訳): 大規模言語モデル (LLM) を用いたペアワイズ評価は, 出力評価に広く採用されている。
しかしながら、LLM評価者の信頼性は、冗長性や権威的なトーンを好むなど、偏見のある好みによって損なわれることが多い。
本研究では,評価装置自体がこれらのバイアスを著しく増幅し,ペアワイズ評価器の方がポイントワイズ評価器よりも望ましくない傾向を示すことを示した。
さらに分析の結果,ペア評価者が誤った判断を下しても,低品質出力における欠点を正確に識別できることが判明した。
また, 簡単な治療法として, ポイントワイズ推論をペアワイズ評価に取り入れることを提案する。
実験結果から, 種々のモデルを対象とした対方向評価器の性能向上が得られた。
LLM評価器の信頼性のさらなる探究が期待できる。
関連論文リスト
- Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
GEDは,モデルランキング,応答選択,モデルアライメントタスクにおいて,ベースライン手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Compare without Despair: Reliable Preference Evaluation with Generation Separability [20.50638483427141]
テストインスタンスがペアの選好評価にどの程度適しているかを推定する尺度であるセパビリティ(Separability)を導入する。
候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。
実験により、分離性が高いインスタンスは、人間と自動レーダの両方からより一貫した選好格付けが得られることが示された。
論文 参考訳(メタデータ) (2024-07-02T01:37:56Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - CASPR: Automated Evaluation Metric for Contrastive Summarization [4.310460539747285]
本稿では,一対の要約のコントラストをよりよく測定するための自動評価指標CASPRを提案する。
従来のデータセットであるCoCoTRIPによる結果から,CASPRは,ベースラインと比較して,要約ペアのコントラスト性をより確実に捉えることができることが示された。
論文 参考訳(メタデータ) (2024-04-23T23:27:29Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。