論文の概要: PRECISE: Reducing the Bias of LLM Evaluations Using Prediction-Powered Ranking Estimation
- arxiv url: http://arxiv.org/abs/2601.18777v1
- Date: Mon, 26 Jan 2026 18:46:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:09.018343
- Title: PRECISE: Reducing the Bias of LLM Evaluations Using Prediction-Powered Ranking Estimation
- Title(参考訳): PreCISE:予測型ランキング推定によるLCM評価のバイアス低減
- Authors: Abhishek Divekar, Anirban Majumder,
- Abstract要約: 予測パワー推論(PPI)は、最小限の人間のアノテーションとLLM(Large Language Models)を組み合わせることで、メトリクスの信頼性の高い推定値を生成する。
提案手法では,100件の人間アノテーションクエリと1万件の未ラベル例が必要であり,アノテーションの要求を大幅に低減する。
- 参考スコア(独自算出の注目度): 3.867363075280545
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Evaluating the quality of search, ranking and RAG systems traditionally requires a significant number of human relevance annotations. In recent times, several deployed systems have explored the usage of Large Language Models (LLMs) as automated judges for this task while their inherent biases prevent direct use for metric estimation. We present a statistical framework extending Prediction-Powered Inference (PPI) that combines minimal human annotations with LLM judgments to produce reliable estimates of metrics which require sub-instance annotations. Our method requires as few as 100 human-annotated queries and 10,000 unlabeled examples, reducing annotation requirements significantly compared to traditional approaches. We formulate our proposed framework (PRECISE) for inference of relevance uplift for an LLM-based query reformulation application, extending PPI to sub-instance annotations at the query-document level. By reformulating the metric-integration space, we reduced the computational complexity from O(2^|C|) to O(2^K), where |C| represents corpus size (in order of millions). Detailed experiments across prominent retrieval datasets demonstrate that our method reduces the variance of estimates for the business-critical Precision@K metric, while effectively correcting for LLM bias in low-resource settings.
- Abstract(参考訳): 伝統的に、検索、ランキング、RAGシステムの品質を評価するには、かなりの数の人間関連アノテーションが必要である。
近年,大規模言語モデル (LLM) を自動判断に用いたシステムもいくつかある。
本稿では,最小限の人間のアノテーションとLLM判断を組み合わせ,サブインスタンスアノテーションを必要とするメトリクスの信頼度を推定する予測パワー推論(PPI)を拡張した統計フレームワークを提案する。
提案手法では,100件の人間アノテーションクエリと1万件の未ラベル例が必要であり,従来の手法と比較してアノテーション要件を著しく低減する。
提案するフレームワーク(PRECISE)をLLMベースのクエリ修正アプリケーションに適用し,PPIをクエリ文書レベルでサブインスタンスアノテーションに拡張する。
計量積分空間を再構成することにより、計算複雑性を O(2^|C|) から O(2^K) に縮めた。
低リソース環境下でのLCMバイアスを効果的に補正しつつ,本手法によりビジネスクリティカルなPrecision@K測定値に対する推定値のばらつきを低減できることを示す。
関連論文リスト
- AcuRank: Uncertainty-Aware Adaptive Computation for Listwise Reranking [35.685682379377134]
大規模言語モデル (LLMs) によるリストのランク付けは、検索ベースのアプリケーションにおいて上位のランク付けされた結果を強化する。
AcuRank は文書関連性に対する不確実性推定に基づいて動的に計算量と目標を調節する適応型再ランクフレームワークである。
TREC-DLとBEIRのベンチマークの結果から,提案手法は精度・効率のトレードオフを一貫して達成し,固定計算ベースラインよりも計算能力に優れることがわかった。
論文 参考訳(メタデータ) (2025-05-24T05:15:49Z) - Utility-Focused LLM Annotation for Retrieval and Retrieval-Augmented Generation [96.18720164390699]
本稿では,大規模言語モデル (LLM) を用いた検索・検索・拡張生成システム (RAG) の訓練における文書ユーティリティのアノテートについて検討する。
以上の結果から,LLM生成アノテーションは,人間のアノテーションや下流QAメトリクスのみを訓練したモデルと比較して,ドメイン外検索性能の向上とRAG結果の改善を図っている。
論文 参考訳(メタデータ) (2025-04-07T16:05:52Z) - FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。