論文の概要: JudgeBench: A Benchmark for Evaluating LLM-based Judges
- arxiv url: http://arxiv.org/abs/2410.12784v1
- Date: Wed, 16 Oct 2024 17:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:49.796087
- Title: JudgeBench: A Benchmark for Evaluating LLM-based Judges
- Title(参考訳): judgeBench: LLMベースの審査員を評価するベンチマーク
- Authors: Sijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica,
- Abstract要約: judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
- 参考スコア(独自算出の注目度): 61.048125269475854
- License:
- Abstract: LLM-based judges have emerged as a scalable alternative to human evaluation and are increasingly used to assess, compare, and improve models. However, the reliability of LLM-based judges themselves is rarely scrutinized. As LLMs become more advanced, their responses grow more sophisticated, requiring stronger judges to evaluate them. Existing benchmarks primarily focus on a judge's alignment with human preferences, but often fail to account for more challenging tasks where crowdsourced human preference is a poor indicator of factual and logical correctness. To address this, we propose a novel evaluation framework to objectively evaluate LLM-based judges. Based on this framework, we propose JudgeBench, a benchmark for evaluating LLM-based judges on challenging response pairs spanning knowledge, reasoning, math, and coding. JudgeBench leverages a novel pipeline for converting existing difficult datasets into challenging response pairs with preference labels reflecting objective correctness. Our comprehensive evaluation on a collection of prompted judges, fine-tuned judges, multi-agent judges, and reward models shows that JudgeBench poses a significantly greater challenge than previous benchmarks, with many strong models (e.g., GPT-4o) performing just slightly better than random guessing. Overall, JudgeBench offers a reliable platform for assessing increasingly advanced LLM-based judges. Data and code are available at https://github.com/ScalerLab/JudgeBench .
- Abstract(参考訳): LLMベースの審査員は、人間の評価に代わるスケーラブルな代替品として登場し、モデルの評価、比較、改善にますます利用されている。
しかし, LLMに基づく審査員自体の信頼性は, 精査されることは稀である。
LLMがより高度化するにつれて、その反応はより洗練され、より強力な審査員がそれらを評価する必要がある。
既存のベンチマークは主に、審査員の人間の嗜好との整合性に重点を置いているが、クラウドソースされた人間の嗜好が事実と論理的正当性の低い指標であるような、より困難なタスクを説明できない場合が多い。
そこで本研究では,LLMに基づく審査員を客観的に評価するための新しい評価枠組みを提案する。
この枠組みに基づいて、知識、推論、数学、コーディングにまたがる挑戦的な応答対について、LCMに基づく審査員を評価するためのベンチマークであるジャッジベンチを提案する。
judgeBenchは、既存の難しいデータセットを、客観的な正しさを反映した選好ラベルを持つ挑戦的なレスポンスペアに変換するための、新しいパイプラインを活用している。
得られた審査員、微調整された審査員、マルチエージェントの審査員、報奨モデルの集合に関する包括的な評価は、審査員ベンチが以前のベンチマークよりもはるかに大きな課題を呈し、多くの強力なモデル(例えばGPT-4o)がランダムな推測よりもわずかに優れていることを示している。
全体として、ジャッジベンチは、ますます先進的なLSMベースの裁判官を評価するための信頼性の高いプラットフォームを提供する。
データとコードはhttps://github.com/ScalerLab/JudgeBench で入手できる。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks [11.01213914485374]
数学的推論タスクにおいて,大規模言語モデル (LLM) について検討する。
本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。
本研究では,各モデルのタスク性能などの統計データを用いて,判定性能の予測を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2024-09-06T10:09:41Z) - Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文 参考訳(メタデータ) (2024-08-16T14:49:35Z) - MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation? [59.7772329962047]
MJ-Benchは、マルチモーダル・ジャッジを評価するために、包括的な選好データセットを組み込んだ新しいベンチマークである。
具体的には、より小型のCLIPベースのスコアリングモデル、オープンソースのVLM、オープンソースのVLMなど、様々なマルチモーダル・ジャッジを評価する。
実験の結果、オープンソースのVLMは一般的にフィードバックが良く、GPT-4oは他の審査員を平均上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-05T20:03:16Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - Humans or LLMs as the Judge? A Study on Judgement Biases [17.069314000437537]
本稿では, LLM および人間審査員に対する誤情報監視バイアス, ジェンダーバイアス, オーソリティバイアス, 美容バイアスを調査するための基礎的アノテーションの参照が不要な新しい枠組みを提案する。
その結果、人間とLLMの裁判官は様々な程度に摂動に弱いこと、そして最先端の裁判官でさえかなりの偏見を持っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-16T13:21:06Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [54.007823006976516]
大規模言語モデル (LLM) を拡張性判断器 (JudgeLM) として微調整し, LLM を効率よく, かつ効率的に評価する手法を提案する。
まず, タスクシード, LLM 生成回答, GPT-4 生成判断を含む包括的, 大規模, 高品質なデータセットを提案する。
次に、微調整LDMにおける重要なバイアスを判断として分析し、位置バイアス、知識バイアス、フォーマットバイアスとみなす。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。