論文の概要: An Empirical Study of LLM-as-a-Judge: How Design Choices Impact Evaluation Reliability
- arxiv url: http://arxiv.org/abs/2506.13639v1
- Date: Mon, 16 Jun 2025 16:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.90293
- Title: An Empirical Study of LLM-as-a-Judge: How Design Choices Impact Evaluation Reliability
- Title(参考訳): LLM-as-a-Judgeの実証的研究:設計が信頼性にどのように影響するか
- Authors: Yusuke Yamauchi, Taro Yano, Masafumi Oyamada,
- Abstract要約: 評価における評価設計,復号化戦略, CoT (Chain-of-Tought) 推論の効果について検討した。
その結果,評価基準は信頼性に重要であり,非決定的サンプリングは決定論的評価よりも人間の嗜好との整合性を向上し,CoT推論は明確な評価基準が存在する場合の利得を最小化することがわかった。
- 参考スコア(独自算出の注目度): 2.8948274245812327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) continue to advance, reliable evaluation methods are essential particularly for open-ended, instruction-following tasks. LLM-as-a-Judge enables automatic evaluation using LLMs as evaluators, but its reliability remains uncertain. In this work, we analyze key factors affecting its trustworthiness, focusing on alignment with human judgments and evaluation consistency. Using BIGGENBench and EvalBiasBench, we study the effects of evaluation design, decoding strategies, and Chain-of-Tought (CoT) reasoning in evaluation. Our results show that evaluation criteria are critical for reliability, non-deterministic sampling improves alignment with human preferences over deterministic evaluation, and CoT reasoning offers minimal gains when clear evaluation criteria are present.
- Abstract(参考訳): 大規模言語モデル(LLM)が進歩を続けるにつれて、信頼性の高い評価手法は特にオープンエンドの命令追従タスクに不可欠である。
LLM-as-a-JudgeはLCMを評価器として自動評価できるが、信頼性は未定である。
本研究では,その信頼性に影響を及ぼす重要な要因を分析し,人的判断の整合性や評価の整合性に着目した。
BIGGENBench と EvalBiasBench を用いて,評価における評価設計,復号化戦略,CoT (Chain-of-Tought) 推論の効果について検討した。
その結果,評価基準は信頼性に重要であり,非決定的サンプリングは決定論的評価よりも人間の嗜好との整合性を向上し,CoT推論は明確な評価基準が存在する場合の利得を最小化することがわかった。
関連論文リスト
- An Empirical Analysis of Uncertainty in Large Language Model Evaluations [28.297464655099034]
我々は2つの異なる評価条件で9つのLLM評価器を用いた実験を行った。
LLM評価器はモデルファミリやサイズによって様々な不確実性を示す。
推論やポストトレーニングのときでも、特別なプロンプト戦略を採用することで、評価の不確実性をある程度軽減できることがわかった。
論文 参考訳(メタデータ) (2025-02-15T07:45:20Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - DeepCRCEval: Revisiting the Evaluation of Code Review Comment Generation [11.010557279355885]
本研究は,先行研究や開発者インタビューから得られた新しい基準を用いて,ベンチマークコメントを実証的に分析する。
評価フレームワークであるDeepCRCEvalは、人間の評価器とLarge Language Models(LLM)を統合し、現在の手法を総合的に再評価する。
論文 参考訳(メタデータ) (2024-12-24T08:53:54Z) - Evaluating the Consistency of LLM Evaluators [9.53888551630878]
大規模言語モデル(LLM)は、一般的な評価指標としての可能性を示している。
評価器としての整合性はまだ検討されており、LCM評価器の信頼性に関する懸念が高まっている。
論文 参考訳(メタデータ) (2024-11-30T17:29:08Z) - CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。
包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。