論文の概要: Statistically Reliable LLM-Based Ranking Evaluation via Prediction-Powered Inference
- arxiv url: http://arxiv.org/abs/2606.05308v1
- Date: Wed, 03 Jun 2026 18:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.324568
- Title: Statistically Reliable LLM-Based Ranking Evaluation via Prediction-Powered Inference
- Title(参考訳): 予測パワー推論による統計的信頼性LLMに基づくランキング評価
- Authors: Abhishek Divekar,
- Abstract要約: 我々は予測パワー推論を拡張して、ランキング評価指標のバイアス補正された推定値を生成する。
Precision@Kのように、アノテーションはドキュメント単位ですが、メトリックはクエリ単位です。
ESCIベンチマークでは、Claude 3 Sonnetによる30の人的アノテーションが増加し、Precision@4推定の標準エラーが4.45から3.50に減少する。
- 参考スコア(独自算出の注目度): 0.4230349220081444
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With PRECISE, we extended Prediction-Powered Inference to produce bias-corrected estimates of ranking evaluation metrics by combining a small human-labeled set with a large LLM-judged set. PPI is provably unbiased regardless of the LLM judge's error profile. We make it applicable to hierarchical metrics like Precision@K, where annotations are per-document but the metric is per-query, by reducing the output-space computation from O(2^|C|) to O(2^K). On the ESCI benchmark, augmenting 30 human annotations with Claude 3 Sonnet judgments reduces the standard error of Precision@4 estimates from 4.45 to 3.50 (a 21% relative reduction). In a production system, our framework correctly identified the best of three system variants from 100 human labels and 2 hours of domain-expert annotation; A/B testing confirmed this ranking with +407 bps in daily sales.
- Abstract(参考訳): PreCISEを用いて予測パワー推論を拡張し、小さな人間ラベルセットと大きなLSMジャッジセットを組み合わせることで、ランキング評価指標のバイアス補正された推定値を生成する。
PPIは、LLM判事のエラープロファイルにかかわらず、確実に不偏である。
アノテーションはドキュメント単位だが、メトリックはクエリ単位であり、出力空間の計算をO(2^|C|)からO(2^K)に還元することで、Precision@Kのような階層的なメトリクスに適用できる。
ESCIベンチマークでは、Claude 3 Sonnetの判定で30の人的アノテーションが増大し、Precision@4の推定値の標準誤差が4.45から3.50に減少する(21%の相対的な減少)。
実運用システムでは,100のラベルと2時間のドメインエキスパートアノテーションから3種類のシステム変種を正しく同定し,A/Bテストにより日当たり407bpsのランキングが得られた。
関連論文リスト
- Knowledge Index of Noah's Ark [63.143852586221534]
KINAは,261分野にわたる899項目のベンチマークである。
ボーナス・オン・バートーナメントがFOSDを弱く支配していることを示す。
トップモデルであるGemini-3.1-Pro-Previewは53.17%、Claude-Opus-4.6は49.92%、GPT-5.4は48.55%に達した。
論文 参考訳(メタデータ) (2026-06-03T17:06:49Z) - VERDI: Single-Call Confidence Estimation for Verification-Based LLM Judges via Decomposed Inference [0.0]
VERDI(verification-Decomposed Inference Inference)は、構造化された裁判官から信頼を抽出する手法である。
VERDIは各評価をサブチェックに分解し、3つの構造信号を導出する。
3つの公開ベンチマークで、VERDIはGPT-4.1-miniでAUROC 0.72-0.91、GPT-5.4-miniで0.66-0.80を達成した。
論文 参考訳(メタデータ) (2026-05-11T23:39:19Z) - Judging the Judges: A Systematic Evaluation of Bias Mitigation Strategies in LLM-as-a-Judge Pipelines [0.0]
4つのプロバイダファミリーの5つの審査モデルに対して,9つのデバイアスング戦略を比較した。
スタイルバイアスは支配的バイアス(全モデルで0.76-0.92)であり、位置バイアス(=0.04)をはるかに超えている。
統合予算戦略により、Claude Sonnet 4 は+11.2 pp (p 0.0001) に大幅に改善され、他のモデルの方向性に好意的な傾向が見られた。
論文 参考訳(メタデータ) (2026-04-25T07:18:30Z) - The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - PRECISE: Reducing the Bias of LLM Evaluations Using Prediction-Powered Ranking Estimation [3.867363075280545]
予測パワー推論(PPI)は、最小限の人間のアノテーションとLLM(Large Language Models)を組み合わせることで、メトリクスの信頼性の高い推定値を生成する。
提案手法では,100件の人間アノテーションクエリと1万件の未ラベル例が必要であり,アノテーションの要求を大幅に低減する。
論文 参考訳(メタデータ) (2026-01-26T18:46:49Z) - Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文 参考訳(メタデータ) (2025-10-12T05:38:10Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Certified Error Control of Candidate Set Pruning for Two-Stage Relevance
Ranking [57.42241521034744]
本稿では、妥当性ランキングのための候補セットプルーニングの認証エラー制御の概念を提案する。
提案手法は,第1段階から抽出した候補集合を抽出し,第2段階の復位速度を向上する。
論文 参考訳(メタデータ) (2022-05-19T16:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。