論文の概要: On the Reliability of Test Collections for Evaluating Systems of
Different Types
- arxiv url: http://arxiv.org/abs/2004.13486v1
- Date: Tue, 28 Apr 2020 13:22:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:34:41.895553
- Title: On the Reliability of Test Collections for Evaluating Systems of
Different Types
- Title(参考訳): 異なる種類のシステム評価のためのテストコレクションの信頼性について
- Authors: Emine Yilmaz, Nick Craswell, Bhaskar Mitra and Daniel Campos
- Abstract要約: 各種検索システムのプール結果に基づいて,テストコレクションを生成するが,最近までディープラーニングシステムを含んでいなかった。
本稿では, 実験コレクションの公平性と再利用性をテストするために, シミュレーションプーリングを用いて, 従来のシステムに基づくプーリングは, ディープラーニングシステムのバイアス評価に繋がる可能性があることを示す。
- 参考スコア(独自算出の注目度): 34.38281205776437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deep learning based models are increasingly being used for information
retrieval (IR), a major challenge is to ensure the availability of test
collections for measuring their quality. Test collections are generated based
on pooling results of various retrieval systems, but until recently this did
not include deep learning systems. This raises a major challenge for reusable
evaluation: Since deep learning based models use external resources (e.g. word
embeddings) and advanced representations as opposed to traditional methods that
are mainly based on lexical similarity, they may return different types of
relevant document that were not identified in the original pooling. If so, test
collections constructed using traditional methods are likely to lead to biased
and unfair evaluation results for deep learning (neural) systems. This paper
uses simulated pooling to test the fairness and reusability of test
collections, showing that pooling based on traditional systems only can lead to
biased evaluation of deep learning systems.
- Abstract(参考訳): 深層学習に基づくモデルが情報検索(IR)にますます使われつつある中、テストコレクションの可用性を確保することが大きな課題である。
各種検索システムのプール結果に基づいて,テストコレクションを生成するが,最近までディープラーニングシステムを含んでいなかった。
ディープラーニングベースのモデルは、主に語彙的類似性に基づく従来の手法とは対照的に、外部リソース(例えば、単語の埋め込み)と高度な表現を使用するため、元のプールで特定されていない異なる種類の関連ドキュメントを返す可能性がある。
もしそうなら、従来の方法で構築されたテストコレクションは、ディープラーニング(neural)システムに対して偏りや不公平な評価結果をもたらす可能性が高い。
本稿では,テストコレクションの公平性と再利用性をテストするためにシミュレーションプーリングを用いて,従来のシステムに基づくプーリングが深層学習システムのバイアス評価につながることを示す。
関連論文リスト
- GenTREC: The First Test Collection Generated by Large Language Models for Evaluating Information Retrieval Systems [0.33748750222488655]
GenTRECは、Large Language Model (LLM)によって生成された文書から完全に構築された最初のテストコレクションである。
我々は、生成したプロンプトのみに関連する文書を考察する一方、他の文書とトピックのペアは非関連として扱われる。
結果として得られたGenTRECコレクションは96,196のドキュメント、300のトピック、および18,964の関連性"判断"で構成されている。
論文 参考訳(メタデータ) (2025-01-05T00:27:36Z) - Machine Learning for Predicting Chaotic Systems [0.0]
カオス力学系の予測は、天気予報など多くの科学分野において重要である。
本稿では,軽量かつ重厚な機械学習アーキテクチャの比較を行う。
従来のメトリクスの望ましい特性を組み合わせ、カオスシステムに適した新しい計量である累積最大誤差を導入する。
論文 参考訳(メタデータ) (2024-07-29T16:34:47Z) - Evaluating Generative Ad Hoc Information Retrieval [58.800799175084286]
生成検索システムは、しばしばクエリに対する応答として、接地された生成されたテキストを直接返す。
このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。
論文 参考訳(メタデータ) (2023-11-08T14:05:00Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。
TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - The Integration of Machine Learning into Automated Test Generation: A
Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。
MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文 参考訳(メタデータ) (2022-06-21T09:26:25Z) - Knowledge-based Document Classification with Shannon Entropy [0.0]
そこで我々は,シャノン・エントロピーを用いた知識ベースモデルを提案し,情報の豊かさを計測し,一様で多様なキーワードマッチングを好む。
シャノンエントロピーは偽陽性率の一定レベルにおいてリコールを著しく改善することを示す。
論文 参考訳(メタデータ) (2022-06-06T05:39:10Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - Deep Keypoint-Based Camera Pose Estimation with Geometric Constraints [80.60538408386016]
連続するフレームから相対的なカメラのポーズを推定することは、視覚計測の基本的な問題である。
本稿では,検出,特徴抽出,マッチング,外乱除去のための学習可能なモジュールで構成されるエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-29T21:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。