論文の概要: Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges
- arxiv url: http://arxiv.org/abs/2406.12624v3
- Date: Fri, 11 Oct 2024 05:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:30:02.414003
- Title: Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges
- Title(参考訳): 審査員の判断:LCMにおけるアライメントと脆弱性の評価
- Authors: Aman Singh Thakur, Kartik Choudhary, Venkat Srinik Ramayapally, Sankaran Vaidyanathan, Dieuwke Hupkes,
- Abstract要約: LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
- 参考スコア(独自算出の注目度): 6.609843448260634
- License:
- Abstract: Offering a promising solution to the scalability challenges associated with human evaluation, the LLM-as-a-judge paradigm is rapidly gaining traction as an approach to evaluating large language models (LLMs). However, there are still many open questions about the strengths and weaknesses of this paradigm, and what potential biases it may hold. In this paper, we present a comprehensive study of the performance of various LLMs acting as judges, focusing on a clean scenario in which inter-human agreement is high. Investigating thirteen judge models of different model sizes and families, judging answers of nine different 'examtaker models' - both base and instruction-tuned - we find that only the best (and largest) models achieve reasonable alignment with humans. However, they are still quite far behind inter-human agreement and their assigned scores may still differ with up to 5 points from human-assigned scores. In terms of their ranking of the nine exam-taker models, instead, also smaller models and even the lexical metric contains may provide a reasonable signal. Through error analysis and other studies, we identify vulnerabilities in judge models, such as their sensitivity to prompt complexity and length, and a tendency toward leniency. The fact that even the best judges differ from humans in this comparatively simple setup suggest that caution may be wise when using judges in more complex setups. Lastly, our research rediscovers the importance of using alignment metrics beyond simple percent alignment, showing that judges with high percent agreement can still assign vastly different scores.
- Abstract(参考訳): LLM-as-a-judgeパラダイムは、人間の評価に関連するスケーラビリティの課題に対して、大きな言語モデル(LLM)を評価するアプローチとして、急速に注目を集めています。
しかし、このパラダイムの強みと弱み、そしてそれが保持する潜在的なバイアスについて、まだ多くのオープンな疑問がある。
本稿では,人間間の合意が高いクリーンなシナリオに着目し,審査員として機能する様々なLLMの性能に関する総合的研究を行う。
モデルのサイズや家族の異なる13の判断モデルを調査し、9つの異なる'examtaker model'(ベースモデルとインストラクションチューニングモデルの両方)の答えを判断すると、最高の(そして最大の)モデルだけが人間と合理的に一致していることがわかった。
しかし、彼らはまだ人間間合意にかなり遅れており、割り当てられたスコアは人間指定スコアから最大5ポイントの違いがあるかもしれない。
9つの試験テイカーモデルのランキングでは、代わりに、より小さなモデルや語彙のメートル法でさえ合理的なシグナルを与える可能性がある。
エラー解析やその他の研究を通じて、複雑性や長さの促進に敏感な判断モデルや、寛大さへの傾向など、判断モデルの脆弱性を識別する。
この比較的単純な設定では、優れた判断者でさえ人間と異なるという事実は、より複雑な設定で判断者を使用する場合、注意が必要であることを示唆している。
最後に、我々の研究は、単純なパーセンテージのアライメント以上のアライメントメトリクスを使うことの重要性を再検討し、高いパーセンテージを持つ審査員が依然として全く異なるスコアを割り当てることができることを示した。
関連論文リスト
- LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。
人間のデータとの比較がないと、これらの評価の有効性が懸念される。
JUDGE-BENCHは、人間のアノテーションを持つ20個のNLPデータセットの集合である。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Humans or LLMs as the Judge? A Study on Judgement Biases [17.069314000437537]
本稿では,LLM および人間審査員を対象とした,Fallacy Oversight Bias, Authority Bias and Beauty Bias の調査のための基礎的アノテーションの参照が不要な新しい枠組みを提案する。
その結果、人間とLLMの裁判官は様々な程度に摂動に弱いこと、そして最先端の裁判官でさえかなりの偏見を持っていることが明らかとなった。
我々は,我々の研究が,頑健な評価システムの開発の緊急性だけでなく,摂動に対する人間とLLM-as-judgeの脆弱性のコミュニティに通知できることを願っている。
論文 参考訳(メタデータ) (2024-02-16T13:21:06Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [54.007823006976516]
大規模言語モデル (LLM) を拡張性判断器 (JudgeLM) として微調整し, LLM を効率よく, かつ効率的に評価する手法を提案する。
まず, タスクシード, LLM 生成回答, GPT-4 生成判断を含む包括的, 大規模, 高品質なデータセットを提案する。
次に、微調整LDMにおける重要なバイアスを判断として分析し、位置バイアス、知識バイアス、フォーマットバイアスとみなす。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。