論文の概要: Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a
Sparse One?
- arxiv url: http://arxiv.org/abs/2110.06918v1
- Date: Wed, 13 Oct 2021 17:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:04:00.658599
- Title: Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a
Sparse One?
- Title(参考訳): 密集した検索を意識した敬語句: 密集した検索者はまばらな検索を模倣できるか?
- Authors: Xilun Chen, Kushal Lakhotia, Barlas O\u{g}uz, Anchit Gupta, Patrick
Lewis, Stan Peshterliev, Yashar Mehdad, Sonal Gupta and Wen-tau Yih
- Abstract要約: 本稿では,スパースモデルの語彙マッチング能力を有する高密度検索器であるSPARについて紹介する。
特に高密度レトリバーLambdaはスパースレトリバーを模倣するように訓練でき、SPARは標準密度レトリバーをLambdaで強化することで構築されることを示す。
- 参考スコア(独自算出の注目度): 15.618287626892174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their recent popularity and well known advantages, dense retrievers
still lag behind sparse methods such as BM25 in their ability to reliably match
salient phrases and rare entities in the query. It has been argued that this is
an inherent limitation of dense models. We disprove this claim by introducing
the Salient Phrase Aware Retriever (SPAR), a dense retriever with the lexical
matching capacity of a sparse model. In particular, we show that a dense
retriever {\Lambda} can be trained to imitate a sparse one, and SPAR is built
by augmenting a standard dense retriever with {\Lambda}. When evaluated on five
open-domain question answering datasets and the MS MARCO passage retrieval
task, SPAR sets a new state of the art for dense and sparse retrievers and can
match or exceed the performance of more complicated dense-sparse hybrid
systems.
- Abstract(参考訳): 最近の人気とよく知られたアドバンテージにもかかわらず、高濃度なレトリバーはbm25のようなスパースなメソッドに遅れをとっており、クエリーで敬遠したフレーズとレアなエンティティと確実にマッチする能力を持っている。
これは密集したモデルに固有の制限であるという主張がある。
スパースモデルの語彙マッチング能力を持つ高密度検索器であるSPAR(Salient Phrase Aware Retriever)を導入することで,この主張を否定する。
特に高密度レトリバー {\Lambda} がスパースを模倣するように訓練できることを示し、SPARは標準密度レトリバーを {\Lambda} で増強することによって構築される。
5つのオープンドメイン質問応答データセットとMS MARCOパス検索タスクで評価すると、SPARは、密でスパースなレトリバーのための新しい技術状態を設定し、より複雑な疎いハイブリッドシステムの性能を一致または超えることができる。
関連論文リスト
- Unsupervised Multilingual Dense Retrieval via Generative Pseudo Labeling [32.10366004426449]
本稿では,教師なしの高密度多言語レトリバーUMRについて紹介する。
本稿では,多言語高密度検索器の性能を反復的に向上する2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T07:49:06Z) - CONVERSER: Few-Shot Conversational Dense Retrieval with Synthetic Data
Generation [32.10366004426449]
対話型高密度検索のためのフレームワークであるConVERSERを提案する。
我々は,大言語モデルのテキスト内学習機能を利用して,検索コーパスの文節に与えられた会話クエリを生成する。
対話型検索ベンチマークOR-QuACとTREC CAsT 19の実験結果から,提案したConverSERは完全教師付きモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-09-13T06:40:24Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - Unsupervised Dense Retrieval Deserves Better Positive Pairs: Scalable
Augmentation with Query Extraction and Generation [27.391814046104646]
擬似クエリ文書ペアを作成する方法,名前付きクエリ抽出(QExt)と転送クエリ生成(TQGen)の2つのカテゴリについて検討する。
QExt は文書構造によって擬似クエリを抽出し、また、TQGen は他の NLP タスクのために訓練された生成モデルを利用する。
実験により、個々の拡張法で訓練された高密度レトリバーは、複数の強いベースラインと相容れない性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-12-17T10:43:25Z) - Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文 参考訳(メタデータ) (2022-10-25T00:53:06Z) - A Study on the Efficiency and Generalization of Light Hybrid Retrievers [28.08970760703045]
インデクシング効率の高い高密度レトリバー(DrBoost)を活用し、さらにDrBoostのメモリを削減するLITEレトリバーを導入する。
我々のハイブリッド-LITEレトリバーは、BM25とDPRのハイブリッドレトリバーの98.0%性能を維持しながら、13Xメモリを節約する。
論文 参考訳(メタデータ) (2022-10-04T04:22:46Z) - LED: Lexicon-Enlightened Dense Retriever for Large-Scale Retrieval [68.85686621130111]
そこで本研究では,高密度なレトリバーをレキシコン認識表現モデルに整合させることを提案する。
提案手法を3つの公開ベンチマークで評価した結果,教師と同等のレキシコン・アウェア・レトリバーにより,提案手法が一貫した,重要な改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-29T15:09:28Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。