論文の概要: On the Reliability of Test Collections for Evaluating Systems of
Different Types
- arxiv url: http://arxiv.org/abs/2004.13486v1
- Date: Tue, 28 Apr 2020 13:22:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:34:41.895553
- Title: On the Reliability of Test Collections for Evaluating Systems of
Different Types
- Title(参考訳): 異なる種類のシステム評価のためのテストコレクションの信頼性について
- Authors: Emine Yilmaz, Nick Craswell, Bhaskar Mitra and Daniel Campos
- Abstract要約: 各種検索システムのプール結果に基づいて,テストコレクションを生成するが,最近までディープラーニングシステムを含んでいなかった。
本稿では, 実験コレクションの公平性と再利用性をテストするために, シミュレーションプーリングを用いて, 従来のシステムに基づくプーリングは, ディープラーニングシステムのバイアス評価に繋がる可能性があることを示す。
- 参考スコア(独自算出の注目度): 34.38281205776437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deep learning based models are increasingly being used for information
retrieval (IR), a major challenge is to ensure the availability of test
collections for measuring their quality. Test collections are generated based
on pooling results of various retrieval systems, but until recently this did
not include deep learning systems. This raises a major challenge for reusable
evaluation: Since deep learning based models use external resources (e.g. word
embeddings) and advanced representations as opposed to traditional methods that
are mainly based on lexical similarity, they may return different types of
relevant document that were not identified in the original pooling. If so, test
collections constructed using traditional methods are likely to lead to biased
and unfair evaluation results for deep learning (neural) systems. This paper
uses simulated pooling to test the fairness and reusability of test
collections, showing that pooling based on traditional systems only can lead to
biased evaluation of deep learning systems.
- Abstract(参考訳): 深層学習に基づくモデルが情報検索(IR)にますます使われつつある中、テストコレクションの可用性を確保することが大きな課題である。
各種検索システムのプール結果に基づいて,テストコレクションを生成するが,最近までディープラーニングシステムを含んでいなかった。
ディープラーニングベースのモデルは、主に語彙的類似性に基づく従来の手法とは対照的に、外部リソース(例えば、単語の埋め込み)と高度な表現を使用するため、元のプールで特定されていない異なる種類の関連ドキュメントを返す可能性がある。
もしそうなら、従来の方法で構築されたテストコレクションは、ディープラーニング(neural)システムに対して偏りや不公平な評価結果をもたらす可能性が高い。
本稿では,テストコレクションの公平性と再利用性をテストするためにシミュレーションプーリングを用いて,従来のシステムに基づくプーリングが深層学習システムのバイアス評価につながることを示す。
関連論文リスト
- Machine Learning for predicting chaotic systems [0.0]
我々は、よく調整された単純な手法と、未調整のベースライン手法が、しばしば最先端のディープラーニングモデルより優れていることを示す。
これらの結果は、データ特性と利用可能な計算資源に対するマッチング予測手法の重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-29T16:34:47Z) - Evaluating Generative Ad Hoc Information Retrieval [58.800799175084286]
生成検索システムは、しばしばクエリに対する応答として、接地された生成されたテキストを直接返す。
このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。
論文 参考訳(メタデータ) (2023-11-08T14:05:00Z) - Re-Benchmarking Pool-Based Active Learning for Binary Classification [27.034593234956713]
アクティブラーニング(英: Active Learning)は、ラベル付きデータを取得する際の機械学習モデルの性能を大幅に向上させるパラダイムである。
アクティブな学習戦略を評価するためのベンチマークはいくつか存在するが、それらの発見はいくつかの誤解を示している。
この不一致は、コミュニティのために透明で再現可能なベンチマークを開発する動機となります。
論文 参考訳(メタデータ) (2023-06-15T08:47:50Z) - The Integration of Machine Learning into Automated Test Generation: A
Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。
MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文 参考訳(メタデータ) (2022-06-21T09:26:25Z) - Knowledge-based Document Classification with Shannon Entropy [0.0]
そこで我々は,シャノン・エントロピーを用いた知識ベースモデルを提案し,情報の豊かさを計測し,一様で多様なキーワードマッチングを好む。
シャノンエントロピーは偽陽性率の一定レベルにおいてリコールを著しく改善することを示す。
論文 参考訳(メタデータ) (2022-06-06T05:39:10Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - Deep Keypoint-Based Camera Pose Estimation with Geometric Constraints [80.60538408386016]
連続するフレームから相対的なカメラのポーズを推定することは、視覚計測の基本的な問題である。
本稿では,検出,特徴抽出,マッチング,外乱除去のための学習可能なモジュールで構成されるエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-29T21:41:31Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。