論文の概要: Measuring Hypothesis Testing Errors in the Evaluation of Retrieval Systems
- arxiv url: http://arxiv.org/abs/2507.07924v1
- Date: Thu, 10 Jul 2025 17:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.502969
- Title: Measuring Hypothesis Testing Errors in the Evaluation of Retrieval Systems
- Title(参考訳): 検索システム評価における仮説テスト誤差の測定
- Authors: Jack McKechnie, Graham McDonald, Craig Macdonald,
- Abstract要約: 問い合わせ文書ペアを用いた情報検索システムの評価
判別力(英: discriminative power、すなわち、システム間の重要な違いを正確に識別する能力)は、クレルの堅牢性に関する正確な結論を描くために重要である。
我々は、タイプIIの誤差を定量化し、バランスの取れた精度などのバランスの取れた分類指標を用いて、クレルの識別力を記述することを提案する。
- 参考スコア(独自算出の注目度): 12.434785821674055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of Information Retrieval (IR) systems typically uses query-document pairs with corresponding human-labelled relevance assessments (qrels). These qrels are used to determine if one system is better than another based on average retrieval performance. Acquiring large volumes of human relevance assessments is expensive. Therefore, more efficient relevance assessment approaches have been proposed, necessitating comparisons between qrels to ascertain their efficacy. Discriminative power, i.e. the ability to correctly identify significant differences between systems, is important for drawing accurate conclusions on the robustness of qrels. Previous work has measured the proportion of pairs of systems that are identified as significantly different and has quantified Type I statistical errors. Type I errors lead to incorrect conclusions due to false positive significance tests. We argue that also identifying Type II errors (false negatives) is important as they lead science in the wrong direction. We quantify Type II errors and propose that balanced classification metrics, such as balanced accuracy, can be used to portray the discriminative power of qrels. We perform experiments using qrels generated using alternative relevance assessment methods to investigate measuring hypothesis testing errors in IR evaluation. We find that additional insights into the discriminative power of qrels can be gained by quantifying Type II errors, and that balanced classification metrics can be used to give an overall summary of discriminative power in one, easily comparable, number.
- Abstract(参考訳): IR(Information Retrieval)システムの評価は、典型的には、クエリドキュメントペアと、それに対応する人間ラベルの関連性評価(qrels)を使用する。
これらのクレルは、平均的な検索性能に基づいて、あるシステムが他のシステムより優れているかどうかを決定するために使用される。
大量の人間関係評価の取得は費用がかかる。
そのため, より効率的な妥当性評価手法が提案されており, 有効性を確認するためには, クレルの比較が必要である。
判別力(英: discriminative power、すなわち、システム間の重要な違いを正確に識別する能力)は、クレルの堅牢性に関する正確な結論を描くために重要である。
従来の研究は、大きく異なると認識され、I型統計誤差を定量化したシステムのペアの比率を測定してきた。
I型エラーは、偽陽性検査による誤った結論につながる。
科学を間違った方向に導くためには,タイプIIの誤り(偽陰性)の同定も重要である,と我々は主張する。
我々はタイプIIの誤りを定量化し、バランスの取れた精度などのバランスの取れた分類指標を用いて、クレルの識別力を記述することを提案する。
我々は、別の関連性評価法を用いて生成したqrelを用いて実験を行い、IR評価における仮説テスト誤差の測定を行う。
我々は,タイプIIの誤りを定量化することで,qrelの識別力に関するさらなる知見を得ることができ,バランスの取れた分類指標を用いて,識別力の全体的概要を1つにまとめることができることを見出した。
関連論文リスト
- Algorithmic Accountability in Small Data: Sample-Size-Induced Bias Within Classification Metrics [0.0]
分類指標におけるサンプルサイズバイアスの重要性を示す。
この啓示は、高解像度のバイアス評価におけるこれらの指標の有効性に挑戦する。
本稿では,モデルに依存しない評価と補正手法を提案する。
論文 参考訳(メタデータ) (2025-05-06T22:02:53Z) - Towards Reliable Testing for Multiple Information Retrieval System Comparisons [2.9180406633632523]
我々は、シミュレーションおよび実TRECデータを用いて、複数の比較手順の信頼性を評価するために、新しいアプローチを用いる。
実験により、ウィルコクソンとベンジャミン・ホックバーグの補正は、典型的なサンプルサイズの重要度に応じてタイプIの誤差率をもたらすことが示された。
論文 参考訳(メタデータ) (2025-01-07T16:48:21Z) - Comprehensive Equity Index (CEI): Definition and Application to Bias Evaluation in Biometrics [47.762333925222926]
本稿では,機械学習モデルのバイアス行動の定量化のための新しい指標を提案する。
顔認識システムの運用評価に焦点をあて,適用する。
論文 参考訳(メタデータ) (2024-09-03T14:19:38Z) - $F_β$-plot -- a visual tool for evaluating imbalanced data classifiers [0.0]
本稿では、一般的なパラメトリック計量である$F_beta$を分析するための簡単なアプローチを提案する。
分析された分類器のプールに対して、あるモデルがユーザの要求に応じて好まれるべき場合を示すことができる。
論文 参考訳(メタデータ) (2024-04-11T18:07:57Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Information-Theoretic Bias Assessment Of Learned Representations Of
Pretrained Face Recognition [18.07966649678408]
保護された人口統計属性に対するバイアスの度合いを特定するために,情報理論,独立バイアス評価指標を提案する。
我々の測定基準は、分類精度に依存する他の方法と異なり、浅いネットワークを用いて予測される保護属性の予測ラベルと地上の真実の差を調べる。
論文 参考訳(メタデータ) (2021-11-08T17:41:17Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。