論文の概要: Analyzing Uncertainty of LLM-as-a-Judge: Interval Evaluations with Conformal Prediction
- arxiv url: http://arxiv.org/abs/2509.18658v1
- Date: Tue, 23 Sep 2025 05:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.714948
- Title: Analyzing Uncertainty of LLM-as-a-Judge: Interval Evaluations with Conformal Prediction
- Title(参考訳): LLM-as-a-Judgeの不確かさの解析:等角予測による区間評価
- Authors: Huanxin Sheng, Xinyi Liu, Hangfeng He, Jieyu Zhao, Jian Kang,
- Abstract要約: 本研究は,LLMに基づくスコアリングの予測間隔を共形予測によって提供することにより,不確実性を分析するための最初の枠組みを示す。
我々は,共形予測がカバレッジ保証付きで有効な予測間隔を提供できることを示す広範な実験と分析を行う。
- 参考スコア(独自算出の注目度): 13.958280616597385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-as-a-judge has become a promising paradigm for using large language models (LLMs) to evaluate natural language generation (NLG), but the uncertainty of its evaluation remains underexplored. This lack of reliability may limit its deployment in many applications. This work presents the first framework to analyze the uncertainty by offering a prediction interval of LLM-based scoring via conformal prediction. Conformal prediction constructs continuous prediction intervals from a single evaluation run, and we design an ordinal boundary adjustment for discrete rating tasks. We also suggest a midpoint-based score within the interval as a low-bias alternative to raw model score and weighted average. We perform extensive experiments and analysis, which show that conformal prediction can provide valid prediction interval with coverage guarantees. We also explore the usefulness of interval midpoint and judge reprompting for better judgment.
- Abstract(参考訳): LLM-as-a-judgeは、大規模言語モデル(LLM)を用いて自然言語生成(NLG)を評価する上で有望なパラダイムとなっているが、その評価の不確実性は未解明のままである。
この信頼性の欠如は、多くのアプリケーションにおけるデプロイメントを制限する可能性がある。
本研究は,LLMに基づくスコアリングの予測間隔を共形予測によって提供することにより,不確実性を分析するための最初の枠組みを示す。
コンフォーマル予測は,1つの評価実行から連続的な予測間隔を構築し,離散評価タスクの順序境界調整を設計する。
また,生モデルスコアと重み付き平均に対する低バイアスの代替として,中間点ベースのスコアを間隔内で提案する。
我々は,共形予測がカバレッジ保証付きで有効な予測間隔を提供できることを示す広範な実験と分析を行う。
また, 間隔中点の有効性について検討し, より良い判断を下すための再試行を行った。
関連論文リスト
- Conformal Prediction Sets with Improved Conditional Coverage using Trust Scores [52.92618442300405]
有限サンプルにおいて、正確に分布のない条件付きカバレッジを達成することは不可能である。
本稿では,最も重要となる範囲を対象とするコンフォメーション予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-17T12:01:56Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - Bin-Conditional Conformal Prediction of Fatalities from Armed Conflict [0.5312303275762104]
ユーザ定義サブセット間の一貫したカバレッジ率を確保することにより、標準コンフォメーション予測を強化するビン条件コンフォメーション予測(BCCP)を導入する。
標準共形予測と比較すると、BCCPは局所的カバレッジを改善するが、これはわずかに広い予測間隔のコストがかかる。
論文 参考訳(メタデータ) (2024-10-18T14:41:42Z) - Conformalizing Machine Translation Evaluation [9.89901717499058]
近年,機械翻訳評価のための不確実性推定手法が提案されている。
モデルの不確実性を過小評価する傾向があり、結果として、基礎的な真実をカバーしない誤った信頼区間をしばしば生み出す。
本稿では,共形予測(conformal prediction)の代替として,理論的に確立されたカバレッジ保証付き信頼区間を求める分布自由化手法を提案する。
論文 参考訳(メタデータ) (2023-06-09T19:36:18Z) - Regions of Reliability in the Evaluation of Multivariate Probabilistic
Forecasts [73.33395097728128]
時系列予測評価のための適切なスコアリングルールに関する最初の体系的な有限サンプル研究を提供する。
本研究では, 地中構造と予測分布のいくつかの重要な相違点をテストするために, 総合的な総合的合成ベンチマークを用いて解析を行った。
論文 参考訳(メタデータ) (2023-04-19T17:38:42Z) - Conformal Prediction Intervals for Remaining Useful Lifetime Estimation [5.171601921549565]
対象変数の可能な値の集合を予測することによって不確実性を表す共形予測(CP)フレームワークについて検討する。
CP は、実際の値(真の RUL)が事前特定可能な確実性の度合いで予測セットによってカバーされることを正式に保証する。
3つのCPアルゴリズムを用いて,任意の単一点RUL予測器を共形化し,有効間隔予測器に変換する。
論文 参考訳(メタデータ) (2022-12-30T09:34:29Z) - How to Evaluate Uncertainty Estimates in Machine Learning for
Regression? [1.4610038284393165]
両手法とも,不確実性評価の品質評価には深刻な欠陥があることが示唆された。
第一に、どちらのアプローチも、予測の不確実性を共同で生み出す別個のコンポーネントを解き放つことはできない。
第3に、予測間隔を直接テストする現在のアプローチには、さらなる欠陥がある。
論文 参考訳(メタデータ) (2021-06-07T07:47:46Z) - Interpretable Machines: Constructing Valid Prediction Intervals with
Random Forests [0.0]
最近の研究で機械学習アルゴリズムを使用する場合の重要な問題は、解釈能力の欠如です。
Random Forest Regression Learnerのこのギャップへの貢献について紹介します。
いくつかのパラメトリックおよび非パラメトリック予測区間がランダムフォレスト点予測のために提供される。
モンテカルロシミュレーションによる徹底的な調査を行い,提案手法の性能を評価した。
論文 参考訳(メタデータ) (2021-03-09T23:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。