論文の概要: Resources for Brewing BEIR: Reproducible Reference Models and an
Official Leaderboard
- arxiv url: http://arxiv.org/abs/2306.07471v1
- Date: Tue, 13 Jun 2023 00:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 15:29:15.012750
- Title: Resources for Brewing BEIR: Reproducible Reference Models and an
Official Leaderboard
- Title(参考訳): ビールを醸造する資源:再現可能な参照モデルと公式のリーダーボード
- Authors: Ehsan Kamalloo, Nandan Thakur, Carlos Lassance, Xueguang Ma,
Jheng-Hong Yang, Jimmy Lin
- Abstract要約: BEIRは18種類のドメイン/タスクの組み合わせで情報検索モデルを評価するためのベンチマークデータセットである。
我々の研究は、ベンチマークが完全な潜在能力を達成できない2つの欠点に対処しています。
- 参考スコア(独自算出の注目度): 47.73060223236792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BEIR is a benchmark dataset for zero-shot evaluation of information retrieval
models across 18 different domain/task combinations. In recent years, we have
witnessed the growing popularity of a representation learning approach to
building retrieval models, typically using pretrained transformers in a
supervised setting. This naturally begs the question: How effective are these
models when presented with queries and documents that differ from the training
data? Examples include searching in different domains (e.g., medical or legal
text) and with different types of queries (e.g., keywords vs. well-formed
questions). While BEIR was designed to answer these questions, our work
addresses two shortcomings that prevent the benchmark from achieving its full
potential: First, the sophistication of modern neural methods and the
complexity of current software infrastructure create barriers to entry for
newcomers. To this end, we provide reproducible reference implementations that
cover the two main classes of approaches: learned dense and sparse models.
Second, there does not exist a single authoritative nexus for reporting the
effectiveness of different models on BEIR, which has led to difficulty in
comparing different methods. To remedy this, we present an official
self-service BEIR leaderboard that provides fair and consistent comparisons of
retrieval models. By addressing both shortcomings, our work facilitates future
explorations in a range of interesting research questions that BEIR enables.
- Abstract(参考訳): BEIRは18種類のドメイン/タスクの組み合わせにわたる情報検索モデルのゼロショット評価のためのベンチマークデータセットである。
近年,検索モデル構築における表現学習手法の普及がみられ,教師付き環境では予め訓練されたトランスフォーマーを用いることが多い。
これらのモデルは、トレーニングデータとは異なるクエリやドキュメントを提示するときに、どの程度効果的か?
例えば、異なるドメイン(例えば、医学または法的なテキスト)の検索や、異なるタイプのクエリ(例えば、キーワード対よく表現された質問)がある。
BEIRはこれらの質問に答えるために設計されたものだが、我々の研究はベンチマークが完全な潜在能力を達成するのを防ぐ2つの欠点に対処している。
この目的のために、我々は2つの主要なアプローチのクラスをカバーする再現可能な参照実装を提供する。
第二に、BEIR上で異なるモデルの有効性を報告するための単一の信頼できるネクサスが存在しておらず、異なる方法を比較するのが困難になっている。
そこで本稿では,検索モデルの公平かつ一貫した比較を行うセルフサービスBEIRリーダーボードを提案する。
両方の欠点に対処することで、BEIRが実現している様々な興味深い研究課題において、今後の探索を促進することができる。
関連論文リスト
- Teaching Smaller Language Models To Generalise To Unseen Compositional Questions (Full Thesis) [0.0]
私たちは、検索したコンテキストを推論する能力を注入することで、さまざまな質問に答えるようにモデルを訓練します。
2つの知識ソースからコンテキストを取得し、ウィキペディアコーパスは、新しい拡張を持つマルチホップ高密度検索システムを用いてクエリし、より大規模な言語モデルから生成された論理から、より低いリソース環境下での動作を最適化した。
論文 参考訳(メタデータ) (2024-11-25T23:25:34Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:08:08Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z) - A Neural Few-Shot Text Classification Reality Check [4.689945062721168]
いくつかのニューラルな数発の分類モデルが出現し、時間とともに大きな進歩をもたらした。
本稿では,これらのモデルを全て比較し,まず画像処理分野のモデルをNLPに適応させ,次にトランスにアクセスできるようにした。
次に,多数のクラスを持つことで知られるインテント検出タスクにおいて,同じトランスフォーマーベースのエンコーダを備えたモデルをテストする。
論文 参考訳(メタデータ) (2021-01-28T15:46:14Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Beyond [CLS] through Ranking by Generation [22.27275853263564]
我々は情報検索のための生成フレームワークを再考する。
我々の生成的アプローチは、解答選択タスクに対する最先端のセマンティック類似性に基づく識別モデルと同じくらい有効であることを示す。
論文 参考訳(メタデータ) (2020-10-06T22:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。