Fugu-MT 論文翻訳(概要): On the Reliability of Test Collections for Evaluating Systems of Different Types

論文の概要: On the Reliability of Test Collections for Evaluating Systems of Different Types

arxiv url: http://arxiv.org/abs/2004.13486v1
Date: Tue, 28 Apr 2020 13:22:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 22:34:41.895553
Title: On the Reliability of Test Collections for Evaluating Systems of Different Types
Title（参考訳）: 異なる種類のシステム評価のためのテストコレクションの信頼性について
Authors: Emine Yilmaz, Nick Craswell, Bhaskar Mitra and Daniel Campos
Abstract要約: 各種検索システムのプール結果に基づいて,テストコレクションを生成するが,最近までディープラーニングシステムを含んでいなかった。本稿では, 実験コレクションの公平性と再利用性をテストするために, シミュレーションプーリングを用いて, 従来のシステムに基づくプーリングは, ディープラーニングシステムのバイアス評価に繋がる可能性があることを示す。
参考スコア（独自算出の注目度）: 34.38281205776437
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As deep learning based models are increasingly being used for information retrieval (IR), a major challenge is to ensure the availability of test collections for measuring their quality. Test collections are generated based on pooling results of various retrieval systems, but until recently this did not include deep learning systems. This raises a major challenge for reusable evaluation: Since deep learning based models use external resources (e.g. word embeddings) and advanced representations as opposed to traditional methods that are mainly based on lexical similarity, they may return different types of relevant document that were not identified in the original pooling. If so, test collections constructed using traditional methods are likely to lead to biased and unfair evaluation results for deep learning (neural) systems. This paper uses simulated pooling to test the fairness and reusability of test collections, showing that pooling based on traditional systems only can lead to biased evaluation of deep learning systems.
Abstract（参考訳）: 深層学習に基づくモデルが情報検索(IR)にますます使われつつある中、テストコレクションの可用性を確保することが大きな課題である。各種検索システムのプール結果に基づいて,テストコレクションを生成するが,最近までディープラーニングシステムを含んでいなかった。ディープラーニングベースのモデルは、主に語彙的類似性に基づく従来の手法とは対照的に、外部リソース(例えば、単語の埋め込み)と高度な表現を使用するため、元のプールで特定されていない異なる種類の関連ドキュメントを返す可能性がある。もしそうなら、従来の方法で構築されたテストコレクションは、ディープラーニング(neural)システムに対して偏りや不公平な評価結果をもたらす可能性が高い。本稿では,テストコレクションの公平性と再利用性をテストするためにシミュレーションプーリングを用いて,従来のシステムに基づくプーリングが深層学習システムのバイアス評価につながることを示す。

関連論文リスト

Variations in Relevance Judgments and the Shelf Life of Test Collections [50.060833338921945]
ニューラル検索モデルへのパラダイムシフトは、現代のテストコレクションの特徴に影響した。ニューラル検索設定における先行研究を再現し、評価者の不一致がシステムランキングに影響を及ぼさないことを示す。我々は、新しい関係判断によって、いくつかのモデルが著しく劣化し、既にランク付け者としての人間の有効性に到達していることを観察した。
論文参考訳（メタデータ） (2025-02-28T10:46:56Z)
GenTREC: The First Test Collection Generated by Large Language Models for Evaluating Information Retrieval Systems [0.33748750222488655]
GenTRECは、Large Language Model (LLM)によって生成された文書から完全に構築された最初のテストコレクションである。我々は、生成したプロンプトのみに関連する文書を考察する一方、他の文書とトピックのペアは非関連として扱われる。結果として得られたGenTRECコレクションは96,196のドキュメント、300のトピック、および18,964の関連性"判断"で構成されている。
論文参考訳（メタデータ） (2025-01-05T00:27:36Z)
Machine Learning for predicting chaotic systems [0.0]
我々は、よく調整された単純な手法と、未調整のベースライン手法が、しばしば最先端のディープラーニングモデルより優れていることを示す。これらの結果は、データ特性と利用可能な計算資源に対するマッチング予測手法の重要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-07-29T16:34:47Z)
Evaluating Generative Ad Hoc Information Retrieval [58.800799175084286]
生成検索システムは、しばしばクエリに対する応答として、接地された生成されたテキストを直接返す。このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。
論文参考訳（メタデータ） (2023-11-08T14:05:00Z)
Re-Benchmarking Pool-Based Active Learning for Binary Classification [27.034593234956713]
アクティブラーニング(英: Active Learning)は、ラベル付きデータを取得する際の機械学習モデルの性能を大幅に向上させるパラダイムである。アクティブな学習戦略を評価するためのベンチマークはいくつか存在するが、それらの発見はいくつかの誤解を示している。この不一致は、コミュニティのために透明で再現可能なベンチマークを開発する動機となります。
論文参考訳（メタデータ） (2023-06-15T08:47:50Z)
A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。 TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文参考訳（メタデータ） (2023-03-27T16:32:21Z)
The Integration of Machine Learning into Automated Test Generation: A Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。 MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文参考訳（メタデータ） (2022-06-21T09:26:25Z)
Knowledge-based Document Classification with Shannon Entropy [0.0]
そこで我々は,シャノン・エントロピーを用いた知識ベースモデルを提案し,情報の豊かさを計測し,一様で多様なキーワードマッチングを好む。シャノンエントロピーは偽陽性率の一定レベルにおいてリコールを著しく改善することを示す。
論文参考訳（メタデータ） (2022-06-06T05:39:10Z)
General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。 GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文参考訳（メタデータ） (2021-12-20T14:47:32Z)
An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文参考訳（メタデータ） (2021-08-09T17:39:09Z)
Deep Keypoint-Based Camera Pose Estimation with Geometric Constraints [80.60538408386016]
連続するフレームから相対的なカメラのポーズを推定することは、視覚計測の基本的な問題である。本稿では,検出,特徴抽出,マッチング,外乱除去のための学習可能なモジュールで構成されるエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文参考訳（メタデータ） (2020-07-29T21:41:31Z)
PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文参考訳（メタデータ） (2020-04-06T04:36:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。