論文の概要: BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models
- arxiv url: http://arxiv.org/abs/2104.08663v1
- Date: Sat, 17 Apr 2021 23:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 05:15:50.925990
- Title: BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models
- Title(参考訳): BEIR:情報検索モデルのゼロショット評価のための異種ベンチマーク
- Authors: Nandan Thakur, Nils Reimers, Andreas R\"uckl\'e, Abhishek Srivastava,
Iryna Gurevych
- Abstract要約: 情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
- 参考スコア(独自算出の注目度): 41.45240621979654
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural IR models have often been studied in homogeneous and narrow settings,
which has considerably limited insights into their generalization capabilities.
To address this, and to allow researchers to more broadly establish the
effectiveness of their models, we introduce BEIR (Benchmarking IR), a
heterogeneous benchmark for information retrieval. We leverage a careful
selection of 17 datasets for evaluation spanning diverse retrieval tasks
including open-domain datasets as well as narrow expert domains. We study the
effectiveness of nine state-of-the-art retrieval models in a zero-shot
evaluation setup on BEIR, finding that performing well consistently across all
datasets is challenging. Our results show BM25 is a robust baseline and
Reranking-based models overall achieve the best zero-shot performances,
however, at high computational costs. In contrast, Dense-retrieval models are
computationally more efficient but often underperform other approaches,
highlighting the considerable room for improvement in their generalization
capabilities. In this work, we extensively analyze different retrieval models
and provide several suggestions that we believe may be useful for future work.
BEIR datasets and code are available at https://github.com/UKPLab/beir.
- Abstract(参考訳): ニューラルirモデルは、その一般化能力に関する洞察をかなり限定した、均質かつ狭い設定でしばしば研究されてきた。
この問題に対処し、研究者がモデルの有効性をより広く確立するために、情報検索のための異種ベンチマークであるBEIR(Benchmarking IR)を導入する。
オープンドメインのデータセットと狭い専門家ドメインを含む多様な検索タスクにまたがる評価に、17のデータセットを慎重に選択する。
我々は,beirにおけるゼロショット評価システムにおける9つの最先端検索モデルの有効性について検討し,全データセットで一貫した実行が困難であることを見出した。
以上の結果から,bm25はロバストなベースラインモデルであり,総じてゼロショット性能を高い計算コストで達成できることがわかった。
対照的に、高密度リトライバルモデルは計算効率が高いが、しばしば他のアプローチを過小評価し、その一般化能力の改善の余地を浮き彫りにしている。
本研究では,様々な検索モデルを分析し,今後の作業に有用であると考えられる提案をいくつか提示する。
BEIRデータセットとコードはhttps://github.com/UKPLab/beir.comで入手できる。
関連論文リスト
- Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - On Evaluation of Vision Datasets and Models using Human Competency Frameworks [20.802372291783488]
アイテム応答理論(IRT)は、モデルと各データセット項目のアンサンブルに対して解釈可能な潜在パラメータを推論するフレームワークである。
モデルキャリブレーションを評価し、情報的データサブセットを選択し、コンピュータビジョンにおけるモデルとデータセットを解析・比較するための潜在パラメータの有用性を実証する。
論文 参考訳(メタデータ) (2024-09-06T06:20:11Z) - Multi-document Summarization: A Comparative Evaluation [0.0]
本論文は,多文書要約(MDS)のための最先端モデルの評価を,様々な領域の異なるタイプのデータセット上で行うことを目的としている。
我々は,Big-SurveyおよびMS$2$データセット上でのPRIMERAおよびPEGモデルの性能を解析した。
論文 参考訳(メタデータ) (2023-09-10T07:43:42Z) - Performance of different machine learning methods on activity
recognition and pose estimation datasets [0.0]
本稿では、リッチポーズ推定(OpenPose)とHARデータセットにおける古典的アプローチとアンサンブルアプローチを用いる。
その結果,無作為林はADLの分類において最も正確であることが示唆された。
相対的にすべてのモデルは、ロジスティック回帰とAdaBoostを除いて、両方のデータセットで優れたパフォーマンスを持つ。
論文 参考訳(メタデータ) (2022-10-19T02:07:43Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - A Thorough Examination on Zero-shot Dense Retrieval [84.70868940598143]
本稿では,高密度検索(DR)モデルのゼロショット能力について,初めて徹底的に検討する。
我々は、ソーストレーニングセットに関連するいくつかの重要な要素の効果を議論し、ターゲットデータセットから潜在的なバイアスを分析し、既存のゼロショットDRモデルをレビューし、比較する。
論文 参考訳(メタデータ) (2022-04-27T07:59:07Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Rethinking Evaluation in ASR: Are Our Models Robust Enough? [30.114009549372923]
一般に、残響と付加音の増補により、ドメイン間の一般化性能が向上することを示す。
ベンチマークを十分に使うと、平均単語誤り率(WER)のパフォーマンスが実世界のノイズの多いデータのパフォーマンスに良いプロキシを提供することを示した。
論文 参考訳(メタデータ) (2020-10-22T14:01:32Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。