論文の概要: Variations in Relevance Judgments and the Shelf Life of Test Collections
- arxiv url: http://arxiv.org/abs/2502.20937v1
- Date: Fri, 28 Feb 2025 10:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:40:12.297935
- Title: Variations in Relevance Judgments and the Shelf Life of Test Collections
- Title(参考訳): テストコレクションの関連判断のバリエーションとシェルフ寿命
- Authors: Andrew Parry, Maik Fröbe, Harrisen Scells, Ferdinand Schlatt, Guglielmo Faggioli, Saber Zerhoudi, Sean MacAvaney, Eugene Yang,
- Abstract要約: ニューラル検索モデルへのパラダイムシフトは、現代のテストコレクションの特徴に影響した。
ニューラル検索設定における先行研究を再現し、評価者の不一致がシステムランキングに影響を及ぼさないことを示す。
我々は、新しい関係判断によって、いくつかのモデルが著しく劣化し、既にランク付け者としての人間の有効性に到達していることを観察した。
- 参考スコア(独自算出の注目度): 50.060833338921945
- License:
- Abstract: The fundamental property of Cranfield-style evaluations, that system rankings are stable even when assessors disagree on individual relevance decisions, was validated on traditional test collections. However, the paradigm shift towards neural retrieval models affected the characteristics of modern test collections, e.g., documents are short, judged with four grades of relevance, and information needs have no descriptions or narratives. Under these changes, it is unclear whether assessor disagreement remains negligible for system comparisons. We investigate this aspect under the additional condition that the few modern test collections are heavily re-used. Given more possible query interpretations due to less formalized information needs, an ''expiration date'' for test collections might be needed if top-effectiveness requires overfitting to a single interpretation of relevance. We run a reproducibility study and re-annotate the relevance judgments of the 2019 TREC Deep Learning track. We can reproduce prior work in the neural retrieval setting, showing that assessor disagreement does not affect system rankings. However, we observe that some models substantially degrade with our new relevance judgments, and some have already reached the effectiveness of humans as rankers, providing evidence that test collections can expire.
- Abstract(参考訳): クランフィールド式評価の基本的な性質は、評価者が個々の関連性決定に異を唱えても、システムランキングが安定であることであり、従来のテストコレクションで検証された。
しかし、ニューラル検索モデルへのパラダイムシフトは、現代のテストコレクションの特徴に影響を与え、例えば、文書は短く、4段階の関連性で判断され、情報には説明や物語がない。
これらの変更の下では、システム比較において評価者の不一致が無視可能であるかどうかが不明である。
本研究は, 少数の近代的なテストコレクションが再利用されているという追加条件の下で, この側面を考察する。
形式化されていない情報要求によるクエリの解釈がより可能となると、最も有効性が高い場合、テストコレクションの'expiration date'は、関連性の1つの解釈に過度に適合する必要がある。
再現性の研究を行い、2019 TREC Deep Learningトラックの関連判断を再注釈する。
ニューラル検索設定では,事前作業の再現が可能であり,評価者の不一致がシステムランキングに影響を及ぼさないことを示す。
しかし、新しい関係判断によっていくつかのモデルが著しく劣化し、すでにランク付け者としての人間の有効性に到達したモデルもあり、テストコレクションが期限切れになる証拠が提示されている。
関連論文リスト
- GenTREC: The First Test Collection Generated by Large Language Models for Evaluating Information Retrieval Systems [0.33748750222488655]
GenTRECは、Large Language Model (LLM)によって生成された文書から完全に構築された最初のテストコレクションである。
我々は、生成したプロンプトのみに関連する文書を考察する一方、他の文書とトピックのペアは非関連として扱われる。
結果として得られたGenTRECコレクションは96,196のドキュメント、300のトピック、および18,964の関連性"判断"で構成されている。
論文 参考訳(メタデータ) (2025-01-05T00:27:36Z) - On the Statistical Significance with Relevance Assessments of Large Language Models [2.9180406633632523]
我々は,文書の関連性をラベル付けするために大規模言語モデルを使用し,新しい検索テストコレクションを構築する。
以上の結果から, LLM判定は有意差の大部分を検出できる一方で, 許容数の偽陽性を維持していることが明らかとなった。
本研究は, LLM判定による統計的試験結果の評価における一歩である。
論文 参考訳(メタデータ) (2024-11-20T11:19:35Z) - Can We Use Large Language Models to Fill Relevance Judgment Holes? [9.208308067952155]
ホールを埋めるためにLarge Language Models(LLM)を利用することで、既存のテストコレクションを拡張するための最初のステップを取ります。
人間+自動判断を用いた場合, 相関関係は著しく低くなる。
論文 参考訳(メタデータ) (2024-05-09T07:39:19Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z) - On Quantitative Evaluations of Counterfactuals [88.42660013773647]
本稿では、分析と実験を通じて、視覚的対実例の評価に関する研究を集約する。
ほとんどのメトリクスは、十分な単純なデータセットを意図して振る舞うが、複雑さが増加すると、良い結果と悪い結果の違いを判断できないものもいる。
私たちはラベル変動スコアとOracleスコアという2つの新しい指標を提案しています。
論文 参考訳(メタデータ) (2021-10-30T05:00:36Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - A Sober Look at the Unsupervised Learning of Disentangled
Representations and their Evaluation [63.042651834453544]
モデルとデータの両方に帰納的バイアスを伴わずに,非教師なしの非教師付き表現学習は不可能であることを示す。
異なる手法は、対応する損失によって「強化」された特性を効果的に強制するが、よく見分けられたモデルは監督なしでは特定できないように見える。
以上の結果から,遠絡学習における今後の研究は,帰納的バイアスと(単純に)監督の役割を明確化すべきであることが示唆された。
論文 参考訳(メタデータ) (2020-10-27T10:17:15Z) - On the Reliability of Test Collections for Evaluating Systems of
Different Types [34.38281205776437]
各種検索システムのプール結果に基づいて,テストコレクションを生成するが,最近までディープラーニングシステムを含んでいなかった。
本稿では, 実験コレクションの公平性と再利用性をテストするために, シミュレーションプーリングを用いて, 従来のシステムに基づくプーリングは, ディープラーニングシステムのバイアス評価に繋がる可能性があることを示す。
論文 参考訳(メタデータ) (2020-04-28T13:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。