論文の概要: How to Correctly Report LLM-as-a-Judge Evaluations
- arxiv url: http://arxiv.org/abs/2511.21140v1
- Date: Wed, 26 Nov 2025 07:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.015577
- Title: How to Correctly Report LLM-as-a-Judge Evaluations
- Title(参考訳): LLM-as-a-Judge評価の正しい報告方法
- Authors: Chungpa Lee, Thomas Zeng, Jongwon Jeong, Jy-yong Sohn, Kangwook Lee,
- Abstract要約: 大型言語モデル (LLM) は、人間の代わりに評価器として使われることが多い。
拡張性はあるものの、LLMの不完全特異性と感度のため、その判断はうるさい。
この研究は、そのようなバイアスを補正し、テストデータセットとキャリブレーションデータセットの両方の不確かさを反映した信頼区間を構築する、シンプルなプラグインフレームワークを示す。
- 参考スコア(独自算出の注目度): 13.389479132464778
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly used as evaluators in lieu of humans. While scalable, their judgments are noisy due to imperfect specificity and sensitivity of LLMs, leading to biased accuracy estimates. Although bias-correction methods exist, they are underutilized in LLM research and typically assume exact knowledge of the model's specificity and sensitivity. Furthermore, in general we only have estimates of these values and it is not well known how to properly construct confidence intervals using only estimates. This work presents a simple plug-in framework that corrects such bias and constructs confidence intervals reflecting uncertainty from both test and calibration dataset, enabling practical and statistically sound LLM-based evaluation. Additionally, to reduce uncertainty in the accuracy estimate, we introduce an adaptive algorithm that efficiently allocates calibration sample sizes.
- Abstract(参考訳): 大型言語モデル (LLM) は、人間の代わりに評価器として使われることが多い。
拡張性はあるものの、LLMの不完全特異性や感度のため、その判断はノイズが多く、精度の偏りが生じる。
バイアス補正法は存在するが、LLMの研究では未利用であり、典型的にはモデルの特異性と感度に関する正確な知識を前提としている。
さらに、一般にこれらの値の見積しか持たず、評価のみを用いて信頼区間を適切に構築する方法はよく分かっていない。
本研究は,そのようなバイアスを補正し,テストデータセットとキャリブレーションデータセットの両方の不確かさを反映した信頼区間を構築し,実用的かつ統計的にLLMに基づく評価を可能にする,シンプルなプラグインフレームワークを提案する。
さらに,精度推定の不確かさを低減するため,キャリブレーションサンプルサイズを効率的に割り当てる適応アルゴリズムを提案する。
関連論文リスト
- Calibrated and Efficient Sampling-Free Confidence Estimation for LiDAR Scene Semantic Segmentation [1.8861801513235323]
分類タスクの信頼度を適切に推定するためのサンプリング不要な手法を提案する。
提案手法は,処理速度の向上を図りながら,精度の高い信頼度を維持している。
本手法は, 過信予測よりも不信感を生じ, 安全クリティカルなアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-11-18T15:13:20Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。