論文の概要: Learning to Retrieve Passages without Supervision
- arxiv url: http://arxiv.org/abs/2112.07708v1
- Date: Tue, 14 Dec 2021 19:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 07:34:17.260382
- Title: Learning to Retrieve Passages without Supervision
- Title(参考訳): スーパービジョンなしでパスを検索する学習
- Authors: Ori Ram, Gal Shachaf, Omer Levy, Jonathan Berant, Amir Globerson
- Abstract要約: オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
- 参考スコア(独自算出の注目度): 58.31911597824848
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Dense retrievers for open-domain question answering (ODQA) have been shown to
achieve impressive performance by training on large datasets of
question-passage pairs. We investigate whether dense retrievers can be learned
in a self-supervised fashion, and applied effectively without any annotations.
We observe that existing pretrained models for retrieval struggle in this
scenario, and propose a new pretraining scheme designed for retrieval:
recurring span retrieval. We use recurring spans across passages in a document
to create pseudo examples for contrastive learning. The resulting model --
Spider -- performs surprisingly well without any examples on a wide range of
ODQA datasets, and is competitive with BM25, a strong sparse baseline. In
addition, Spider often outperforms strong baselines like DPR trained on Natural
Questions, when evaluated on questions from other datasets. Our hybrid
retriever, which combines Spider with BM25, improves over its components across
all datasets, and is often competitive with in-domain DPR models, which are
trained on tens of thousands of examples.
- Abstract(参考訳): オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
密集したレトリバーを自己教師方式で学習できるか検討し,アノテーションを使わずに効果的に適用できるか検討した。
本稿では,このシナリオにおける既存の事前学習モデルについて考察し,検索のための新たな事前学習手法を提案する。
コントラスト学習のための擬似例を作成するために、文書内の通路にまたがる繰り返しスパンを使用します。
その結果得られたモデルであるSpiderは、幅広いODQAデータセットのサンプルなしで驚くほどよく動作し、強力なスパースベースラインであるBM25と競合する。
さらに、スパイダーは、他のデータセットからの質問に対して評価すると、自然質問で訓練されたDPRのような強いベースラインを上回ることがしばしばある。
spiderとbm25を組み合わせたハイブリッドレトリバーは、すべてのデータセットのコンポーネントを改良し、数万の例でトレーニングされるドメイン内dprモデルと競合することが多い。
関連論文リスト
- W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
大規模言語モデル(LLM)は、内部(パラメトリック)知識にのみ依存して、事実的な回答を生成するのに苦労することが多い。
この制限に対処するため、Retrieval-Augmented Generation (RAG)システムでは、外部ソースから関連情報を検索することでLLMを強化している。
我々はLLMのランキング機能を活用してW-RAGを提案する。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Unified Demonstration Retriever for In-Context Learning [56.06473069923567]
Unified Demonstration Retriever (textbfUDR)は、幅広いタスクのデモを検索する単一のモデルである。
我々は,高品質な候補を見つけるための反復的なマイニング戦略を備えたマルチタスクリストワイド・トレーニング・フレームワークを提案する。
13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-07T16:07:11Z) - Towards Unsupervised Dense Information Retrieval with Contrastive
Learning [38.42033176712396]
比較学習は教師なし高密度検索者の学習に有効であることを示す。
私たちのモデルは15のデータセットのうち11でBM25より優れています。
論文 参考訳(メタデータ) (2021-12-16T18:57:37Z) - End-to-End Training of Neural Retrievers for Open-Domain Question
Answering [32.747113232867825]
ニューラルレトリバーに対して、非監視および監督された方法が最も効果的に使用できるかは不明である。
Inverse Cloze Taskとマスク付きサラエントスパンによる教師なしプリトレーニングのアプローチを提案します。
また,OpenQAモデルにおけるリーダとレシーバコンポーネントのエンドツーエンド教師付きトレーニングのための2つのアプローチについても検討する。
論文 参考訳(メタデータ) (2021-01-02T09:05:34Z) - Multi-task Retrieval for Knowledge-Intensive Tasks [21.725935960568027]
ニューラル検索のためのマルチタスク訓練モデルを提案する。
我々のアプローチは、数ショット設定で過去の手法より優れているだけでなく、ニューラルレトリバーに匹敵する。
レトリバーの助けを借りて、ダウンストリームタスクの既存のモデルを改善し、複数のベンチマークで最先端の技術を密接に一致または改善します。
論文 参考訳(メタデータ) (2021-01-01T00:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。