論文の概要: Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory
- arxiv url: http://arxiv.org/abs/2602.00521v1
- Date: Sat, 31 Jan 2026 05:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.232821
- Title: Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory
- Title(参考訳): 項目応答理論によるLCM-as-a-Judgeの信頼性診断
- Authors: Junhyuk Choi, Sohhyung Park, Chanhee Cho, Hyeonchu Park, Bugeun Kim,
- Abstract要約: 項目応答理論(IRT)に基づくLCM-as-a-Judgeの信頼性評価のための2段階診断フレームワークを提案する。
本フレームワークはIRTのグレード・レスポンシブ・モデル(GRM)を採用し,(1)素早い変動下での計測行動の安定性として定義された本質的な一貫性,(2)人間のアライメント,人間の品質評価との対応,という2つの相補的な次元に沿って信頼性を定式化する。
- 参考スコア(独自算出の注目度): 6.880198682732575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While LLM-as-a-Judge is widely used in automated evaluation, existing validation practices primarily operate at the level of observed outputs, offering limited insight into whether LLM judges themselves function as stable and reliable measurement instruments. To address this limitation, we introduce a two-phase diagnostic framework for assessing reliability of LLM-as-a-Judge, grounded in Item Response Theory (IRT). The framework adopts Graded Response Model (GRM) of IRT and formalizes reliability along two complementary dimensions: (1) intrinsic consistency, defined as the stability of measurement behavior under prompt variations, and (2) human alignment, capturing correspondence with human quality assessments. We empirically examine diverse LLM judges with this framework, and show that leveraging IRT-GRM yields interpretable signals for diagnosing judgments systematically. These signals provide practical guidance for verifying reliablity of LLM-as-a-Judge and identifying potential causes of unreliability.
- Abstract(参考訳): LLM-as-a-Judgeは自動評価に広く用いられているが、既存の検証手法は主に観測結果のレベルで運用されており、LCMの判断自体が安定かつ信頼性の高い測定器として機能するかどうかについての知見は限られている。
この制限に対処するため,IRT(Item Response Theory)に基づくLCM-as-a-Judgeの信頼性を評価するための2段階診断フレームワークを導入する。
本フレームワークはIRTのグレード・レスポンシブ・モデル(GRM)を採用し,(1)素早い変動下での計測行動の安定性として定義された本質的な一貫性,(2)人間のアライメント,人間の品質評価との対応,という2つの相補的な次元に沿って信頼性を定式化する。
この枠組みを用いて多種多様なLCM判定器を実験的に検討し,IRT-GRMの活用により,解釈可能な信号で判断を体系的に診断できることを実証した。
これらの信号は、LCM-as-a-Judgeの信頼性を検証するための実用的なガイダンスを提供し、信頼性の低い潜在的な原因を特定する。
関連論文リスト
- Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。
二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。
実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文 参考訳(メタデータ) (2025-12-21T05:22:04Z) - Overconfidence in LLM-as-a-Judge: Diagnosis and Confidence-Driven Solution [20.607071807794195]
大規模言語モデル(LLM)は自動化された判断として広く使われており、実際的な価値は正確さと信頼性の高いリスク認識の判断の両方に依存する。
既存のアプローチは主に正確さに焦点を合わせ、よく校正された信頼の必要性を見越す。
我々は、精度中心の評価から信頼性駆動型、リスク対応型LCM-as-a-Judgeシステムへの移行を提唱する。
論文 参考訳(メタデータ) (2025-08-08T11:11:22Z) - Can You Trust LLM Judgments? Reliability of LLM-as-a-Judge [0.3759936323189418]
大規模言語モデル(LLM)はますます強力でユビキタスなものになってきていますが、その性質はアウトプットの信頼性に課題をもたらします。
マクドナルドのオメガを利用したLCM判定の信頼性を厳格に評価するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-17T03:37:31Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。