論文の概要: Evaluating the Reliability and Fidelity of Automated Judgment Systems of Large Language Models
- arxiv url: http://arxiv.org/abs/2603.22214v1
- Date: Mon, 23 Mar 2026 17:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.806373
- Title: Evaluating the Reliability and Fidelity of Automated Judgment Systems of Large Language Models
- Title(参考訳): 大規模言語モデルの自動判断システムの信頼性と忠実度の評価
- Authors: Tom Biskupski, Stephan Kleber,
- Abstract要約: 審査員としてのLarge Language Model(LLM)は、被害者の機械学習(ML)モデル、特にLLMの品質を、その出力を分析して評価する。
審査員としてのLLMは、まったく新しい技術であるため、信頼性と人間の判断への同意について徹底的な調査を欠いている。
我々は,37種類の対話型LLMと5つの異なる判断プロンプト,第2レベルの判断概念,およびタスクを評価対象として微調整した5つのモデルとの併用の有効性を検証した。
- 参考スコア(独自算出の注目度): 0.20052993723676893
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A Large Language Model (LLM) as judge evaluates the quality of victim Machine Learning (ML) models, specifically LLMs, by analyzing their outputs. An LLM as judge is the combination of one model and one specifically engineered judge prompt that contains the criteria for the analysis. The resulting automation of the analysis scales up the complex evaluation of the victim models' free-form text outputs by faster and more consistent judgments compared to human reviewers. Thus, quality and security assessments of LLMs can cover a wide range of the victim models' use cases. Being a comparably new technique, LLMs as judges lack a thorough investigation for their reliability and agreement to human judgment. Our work evaluates the applicability of LLMs as automated quality assessors of victim LLMs. We test the efficacy of 37 differently sized conversational LLMs in combination with 5 different judge prompts, the concept of a second-level judge, and 5 models fine-tuned for the task as assessors. As assessment objective, we curate datasets for eight different categories of judgment tasks and the corresponding ground-truth labels based on human assessments. Our empirical results show a high correlation of LLMs as judges with human assessments, when combined with a suitable prompt, in particular for GPT-4o, several open-source models with $\geqslant$ 32B parameters, and a few smaller models like Qwen2.5 14B.
- Abstract(参考訳): 審査員としてのLarge Language Model(LLM)は、被害者の機械学習(ML)モデル、特にLLMの品質を、その出力を分析して評価する。
審査員としてのLLMは、分析の基準を含む1つのモデルと1つの特別に設計された審査プロンプトの組み合わせである。
分析結果の自動化は、人間のレビュアーと比較して、より高速で一貫性のある判断によって、被害者モデルの自由形式のテキスト出力の複雑な評価をスケールアップする。
したがって、LSMの品質とセキュリティの評価は、犠牲者モデルの幅広いユースケースをカバーすることができる。
審査員としてのLLMは、まったく新しい技術であるため、信頼性と人間の判断への同意について徹底的な調査を欠いている。
本研究は, LLMの自動品質評価装置として, LLMの適用性を評価する。
我々は,37種類の対話型LLMと5つの異なる判断プロンプト,第2レベルの判断概念,およびタスクを評価対象として微調整した5つのモデルとの併用の有効性を検証した。
評価対象として,人的評価に基づいて,評価課題の8つのカテゴリと,それに対応する地味ラベルのデータセットをキュレートする。
特に GPT-4o や$\geqslant$ 32B のオープンソースモデル,Qwen2.5 14B などの小型モデルなどにおいて,人間の評価と LLM の相関性が高いことを示す。
関連論文リスト
- Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。
我々はReasoningJudgeBenchというベンチマークを紹介します。
EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文 参考訳(メタデータ) (2025-05-19T16:50:35Z) - From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks [11.01213914485374]
数学的推論タスクにおいて,大規模言語モデル (LLM) について検討する。
本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。
その結果、音声の一部タグのような単純な特徴を用いて、LLM判断者の行動を予測することができるかどうかを検証した。
論文 参考訳(メタデータ) (2024-09-06T10:09:41Z) - Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文 参考訳(メタデータ) (2024-08-16T14:49:35Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Model is not a General Substitute for GPT-4 [29.93673872618022]
微調整の審査モデルは、GPT-4と同等の評価能力を発揮すると主張されている。
提案手法は, GPT-4 を超越しても, GPT-4 は汎用性, 公正性, 適応性など, 複数次元にわたって性能的に優れていた。
論文 参考訳(メタデータ) (2024-03-05T10:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。