論文の概要: On the Reliability of Test Collections for Evaluating Systems of
Different Types
- arxiv url: http://arxiv.org/abs/2004.13486v1
- Date: Tue, 28 Apr 2020 13:22:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:34:41.895553
- Title: On the Reliability of Test Collections for Evaluating Systems of
Different Types
- Title(参考訳): 異なる種類のシステム評価のためのテストコレクションの信頼性について
- Authors: Emine Yilmaz, Nick Craswell, Bhaskar Mitra and Daniel Campos
- Abstract要約: 各種検索システムのプール結果に基づいて,テストコレクションを生成するが,最近までディープラーニングシステムを含んでいなかった。
本稿では, 実験コレクションの公平性と再利用性をテストするために, シミュレーションプーリングを用いて, 従来のシステムに基づくプーリングは, ディープラーニングシステムのバイアス評価に繋がる可能性があることを示す。
- 参考スコア(独自算出の注目度): 34.38281205776437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deep learning based models are increasingly being used for information
retrieval (IR), a major challenge is to ensure the availability of test
collections for measuring their quality. Test collections are generated based
on pooling results of various retrieval systems, but until recently this did
not include deep learning systems. This raises a major challenge for reusable
evaluation: Since deep learning based models use external resources (e.g. word
embeddings) and advanced representations as opposed to traditional methods that
are mainly based on lexical similarity, they may return different types of
relevant document that were not identified in the original pooling. If so, test
collections constructed using traditional methods are likely to lead to biased
and unfair evaluation results for deep learning (neural) systems. This paper
uses simulated pooling to test the fairness and reusability of test
collections, showing that pooling based on traditional systems only can lead to
biased evaluation of deep learning systems.
- Abstract(参考訳): 深層学習に基づくモデルが情報検索(IR)にますます使われつつある中、テストコレクションの可用性を確保することが大きな課題である。
各種検索システムのプール結果に基づいて,テストコレクションを生成するが,最近までディープラーニングシステムを含んでいなかった。
ディープラーニングベースのモデルは、主に語彙的類似性に基づく従来の手法とは対照的に、外部リソース(例えば、単語の埋め込み)と高度な表現を使用するため、元のプールで特定されていない異なる種類の関連ドキュメントを返す可能性がある。
もしそうなら、従来の方法で構築されたテストコレクションは、ディープラーニング(neural)システムに対して偏りや不公平な評価結果をもたらす可能性が高い。
本稿では,テストコレクションの公平性と再利用性をテストするためにシミュレーションプーリングを用いて,従来のシステムに基づくプーリングが深層学習システムのバイアス評価につながることを示す。
関連論文リスト
- Evaluating Generative Ad Hoc Information Retrieval [44.835859036177]
生成検索システムは、従来の文書ランキングではなく、情報要求に応じて、接地された生成されたテキストを返却する。
これらの応答の有効性を定量化することは、生成的検索システムを評価する上で不可欠である。
論文 参考訳(メタデータ) (2023-11-08T14:05:00Z) - Large Class Separation is not what you need for Relational
Reasoning-based OOD Detection [12.578844450586]
Out-Of-Distribution (OOD) 検出法はセマンティックノベルティを識別して解を提供する。
これらの手法の多くは、既知のデータの学習段階を利用しており、これは正規性の概念を捉えるためのモデル(または微調整)を訓練することを意味する。
実行可能な代替手段は、大きな事前訓練されたモデルによって生成された埋め込み空間の類似性を評価することであり、それ以上の学習は行わない。
論文 参考訳(メタデータ) (2023-07-12T14:10:15Z) - Re-Benchmarking Pool-Based Active Learning for Binary Classification [27.034593234956713]
アクティブラーニング(英: Active Learning)は、ラベル付きデータを取得する際の機械学習モデルの性能を大幅に向上させるパラダイムである。
アクティブな学習戦略を評価するためのベンチマークはいくつか存在するが、それらの発見はいくつかの誤解を示している。
この不一致は、コミュニティのために透明で再現可能なベンチマークを開発する動機となります。
論文 参考訳(メタデータ) (2023-06-15T08:47:50Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - The Integration of Machine Learning into Automated Test Generation: A
Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。
MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文 参考訳(メタデータ) (2022-06-21T09:26:25Z) - Knowledge-based Document Classification with Shannon Entropy [0.0]
そこで我々は,シャノン・エントロピーを用いた知識ベースモデルを提案し,情報の豊かさを計測し,一様で多様なキーワードマッチングを好む。
シャノンエントロピーは偽陽性率の一定レベルにおいてリコールを著しく改善することを示す。
論文 参考訳(メタデータ) (2022-06-06T05:39:10Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - Deep Keypoint-Based Camera Pose Estimation with Geometric Constraints [80.60538408386016]
連続するフレームから相対的なカメラのポーズを推定することは、視覚計測の基本的な問題である。
本稿では,検出,特徴抽出,マッチング,外乱除去のための学習可能なモジュールで構成されるエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-29T21:41:31Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。