論文の概要: Judge's Verdict: A Comprehensive Analysis of LLM Judge Capability Through Human Agreement
- arxiv url: http://arxiv.org/abs/2510.09738v1
- Date: Fri, 10 Oct 2025 17:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.603379
- Title: Judge's Verdict: A Comprehensive Analysis of LLM Judge Capability Through Human Agreement
- Title(参考訳): 裁判官の評決:人的合意によるLLM裁判官の能力に関する総合的分析
- Authors: Steve Han, Gilberto Titericz Junior, Tom Balough, Wenfei Zhou,
- Abstract要約: 本研究では,Large Language Models (LLMs) を応答精度評価タスクの判定対象として,新たな2段階評価手法を提案する。
RAG(Retrieval-Augmented Generation)やAgentic Pipelines(Agentic Pipelines)からの応答を、地上の真実の答えに対して評価すると、54個のLLMが人間の判断をいかにうまく再現できるかを評価する。
- 参考スコア(独自算出の注目度): 1.5191981795942073
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This research introduces the Judge's Verdict Benchmark, a novel two-step methodology to evaluate Large Language Models (LLMs) as judges for response accuracy evaluation tasks. We assess how well 54 LLMs can replicate human judgment when scoring responses from RAG (Retrieval-Augmented Generation) or Agentic pipelines against ground truth answers. Our methodology progresses from traditional correlation analysis to comprehensive Cohen's Kappa analysis that measures actual agreement patterns. The two-step approach includes: (1) a correlation test that filters judges with strong alignment, followed by (2) a human-likeness test using z-scores to identify two distinct judgment patterns: human-like judgment (|z| < 1) that mimics natural human variation, and super-consistent judgment (z > 1) that exceeds typical human-to-human agreement levels. This methodology reveals that 27 out of 54 tested LLMs achieve Tier 1 performance: 23 models exhibit human-like patterns that preserve the nuances of human judgment, while 4 models demonstrate super-consistent behavior, a pattern that could indicate either enhanced reliability or oversimplification of complex judgments. Testing 43 open-source models (1B-405B parameters) and 11 closed models (GPT, Gemini, Claude variants), we demonstrate that judge excellence is not solely dependent on model size but on specific training strategies. Our key contributions include: (1) establishing that correlation alone is insufficient for judge evaluation, (2) introducing a "Turing Test for judges" based on agreement patterns, and (3) providing a standardized benchmark for classifying LLM judges into distinct performance tiers for different evaluation needs.
- Abstract(参考訳): 本研究は,Large Language Models (LLMs) を応答精度評価タスクのジャッジとして評価する,新しい2段階の手法であるジャッジの検証ベンチマークを紹介する。
RAG(Retrieval-Augmented Generation)やAgentic Pipelines(Agentic Pipelines)からの応答を、地上の真実の答えに対して評価すると、54個のLLMが人間の判断をいかにうまく再現できるかを評価する。
我々の手法は、従来の相関分析から、実際の合意パターンを測定するCohenのKappa分析まで進歩している。
2段階のアプローチでは,(1) 強いアライメントで判断をフィルタリングする相関テスト,(2) zスコアを用いた人間類似性テスト,(2) 人間の自然な変化を模倣する人間類似性判定(|z| < 1) と,(z > 1) 通常の人間対人間の合意レベルを超える超一貫性判定(z) の2つの異なる判断パターンを識別する。
23のモデルは人間の判断のニュアンスを保った人間のようなパターンを示し、4つのモデルは超一貫性のある行動を示し、それは信頼性の向上または複雑な判断の過度な単純化を示す。
43個のオープンソースモデル (1B-405Bパラメータ) と11個のクローズドモデル (GPT, Gemini, Claude variants) を検証したところ, 判定精度はモデルサイズにのみ依存せず, 特定のトレーニング戦略に依存していることがわかった。
主な貢献は,(1) 判断評価に相関だけでは不十分であること,(2) 合意パターンに基づいた「判断のための学習試験」を導入すること,(3) 異なる評価ニーズに対して,LLM判断を異なる性能レベルに分類するための標準化されたベンチマークを提供することである。
関連論文リスト
- J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。
我々はReasoningJudgeBenchというベンチマークを紹介します。
EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文 参考訳(メタデータ) (2025-05-19T16:50:35Z) - JudgeLRM: Large Reasoning Models as a Judge [65.14085339820795]
我々は,Large Language Models (LLMs) の判断が推論能力の強化から真に恩恵を受けるかどうかを考察する。
本稿では、強化学習(RL)を用いて学習した判断指向LLMのファミリーであるジャッジLRMを紹介する。
論文 参考訳(メタデータ) (2025-03-31T02:18:51Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks [11.01213914485374]
数学的推論タスクにおいて,大規模言語モデル (LLM) について検討する。
本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。
その結果、音声の一部タグのような単純な特徴を用いて、LLM判断者の行動を予測することができるかどうかを検証した。
論文 参考訳(メタデータ) (2024-09-06T10:09:41Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。