論文の概要: Reliable Evaluation Protocol for Low-Precision Retrieval
- arxiv url: http://arxiv.org/abs/2508.03306v2
- Date: Wed, 06 Aug 2025 02:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 13:27:10.400105
- Title: Reliable Evaluation Protocol for Low-Precision Retrieval
- Title(参考訳): 高精度検索のための信頼性評価プロトコル
- Authors: Kisu Yang, Yoonna Jang, Hwanseok Jang, Kenneth Choi, Isabelle Augenstein, Heuiseok Lim,
- Abstract要約: スコア変動を低減するために,より堅牢な検索評価プロトコルを提案する。
本研究は,(1)計算コストを最小に抑えるため最終採点段階を高い精度に引き上げるHPS(High-Precision Scoring),(2)予測スコア,範囲,偏差を報告するTRM(Tie-Aware Retrieval Metrics)から構成される。
- 参考スコア(独自算出の注目度): 34.65522226937288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lowering the numerical precision of model parameters and computations is widely adopted to improve the efficiency of retrieval systems. However, when computing relevance scores between the query and documents in low-precision, we observe spurious ties due to the reduced granularity. This introduces high variability in the results based on tie resolution, making the evaluation less reliable. To address this, we propose a more robust retrieval evaluation protocol designed to reduce score variation. It consists of: (1) High-Precision Scoring (HPS), which upcasts the final scoring step to higher precision to resolve tied candidates with minimal computational cost; and (2) Tie-aware Retrieval Metrics (TRM), which report expected scores, range, and bias to quantify order uncertainty of tied candidates. Our experiments test multiple models with three scoring functions on two retrieval datasets to demonstrate that HPS dramatically reduces tie-induced instability, and TRM accurately recovers expected metric values. This combination enables a more consistent and reliable evaluation system for lower-precision retrievals.
- Abstract(参考訳): モデルパラメータと計算の数値精度を下げることにより,検索システムの効率化が図られている。
しかし,クエリとドキュメント間の関連性のスコアを低精度で計算すると,粒度の減少による急激な関係が観察される。
これにより、ネクタイ分解能に基づく結果に高いばらつきが生じ、評価の信頼性が低下する。
そこで本研究では,スコア変動を低減するために,より堅牢な検索評価プロトコルを提案する。
本研究は,(1)計算コストを最小に抑えるため最終採点段階を高い精度に引き上げるHPS(High-Precision Scoring),(2)予測スコア,範囲,偏差を報告するTRM(Tie-Aware Retrieval Metrics)から構成される。
実験では、2つの検索データセット上で3つのスコアリング関数を持つ複数のモデルを試行し、HPSがネクタイによる不安定性を劇的に低減し、TRMが期待値の精度良く回復することを示した。
この組み合わせにより、より一貫性があり信頼性の高い低精度検索システムを実現する。
関連論文リスト
- AcuRank: Uncertainty-Aware Adaptive Computation for Listwise Reranking [25.459771464139855]
大規模言語モデル (LLMs) によるリストのランク付けは、検索ベースのアプリケーションにおいて上位のランク付けされた結果を強化する。
AcuRank は文書関連性に対する不確実性推定に基づいて動的に計算量と目標を調節する適応型再ランクフレームワークである。
TREC-DLとBEIRのベンチマークの結果から,提案手法は精度・効率のトレードオフを一貫して達成し,固定計算ベースラインよりも計算能力に優れることがわかった。
論文 参考訳(メタデータ) (2025-05-24T05:15:49Z) - Breaking the Lens of the Telescope: Online Relevance Estimation over Large Retrieval Sets [14.494301139974455]
本稿では,オンライン関連度推定という新たな手法を提案する。
オンライン関連度推定は、ランキングプロセスを通して、クエリの関連度推定を継続的に更新する。
TRECベンチマークの手法をハイブリッド検索と適応検索の2つのシナリオで検証する。
論文 参考訳(メタデータ) (2025-04-12T22:05:50Z) - Semiparametric conformal prediction [79.6147286161434]
ベクトル値の非整合性スコアの結合相関構造を考慮した共形予測セットを構築する。
スコアの累積分布関数(CDF)を柔軟に推定する。
提案手法は,現実の回帰問題に対して,所望のカバレッジと競争効率をもたらす。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Bayesian Prediction-Powered Inference [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
本稿では,ベイズ推定に基づくPPIのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-09T18:08:58Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Optimal Cross-Validation for Sparse Linear Regression [5.156484100374059]
線形回帰器のスパーシリティとロバスト性を選択するためにk-foldクロスバリデーションを用いる。
クロスバリデーションはスパース回帰の計算コストを大幅に増大させる。
混合整数最適化問題を50~80%削減することで、この状況を改善する。
論文 参考訳(メタデータ) (2023-06-26T17:02:45Z) - Mutual Wasserstein Discrepancy Minimization for Sequential
Recommendation [82.0801585843835]
逐次リコメンデーションのためのMutual WasserStein差分最小化MSteinに基づく新しい自己教師型学習フレームワークを提案する。
また,ワッサーシュタイン離散度測定に基づく新しい学習損失を提案する。
論文 参考訳(メタデータ) (2023-01-28T13:38:48Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - Enhanced Doubly Robust Learning for Debiasing Post-click Conversion Rate
Estimation [29.27760413892272]
クリック後の変換は、ユーザの好みを示す強いシグナルであり、レコメンデーションシステムを構築する上で有益である。
現在、ほとんどの既存の手法は、対実学習を利用してレコメンデーションシステムを破壊している。
本稿では,MRDR推定のための新しい二重学習手法を提案し,誤差計算を一般的なCVR推定に変換する。
論文 参考訳(メタデータ) (2021-05-28T06:59:49Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。