論文の概要: Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a
Sparse One?
- arxiv url: http://arxiv.org/abs/2110.06918v1
- Date: Wed, 13 Oct 2021 17:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:04:00.658599
- Title: Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a
Sparse One?
- Title(参考訳): 密集した検索を意識した敬語句: 密集した検索者はまばらな検索を模倣できるか?
- Authors: Xilun Chen, Kushal Lakhotia, Barlas O\u{g}uz, Anchit Gupta, Patrick
Lewis, Stan Peshterliev, Yashar Mehdad, Sonal Gupta and Wen-tau Yih
- Abstract要約: 本稿では,スパースモデルの語彙マッチング能力を有する高密度検索器であるSPARについて紹介する。
特に高密度レトリバーLambdaはスパースレトリバーを模倣するように訓練でき、SPARは標準密度レトリバーをLambdaで強化することで構築されることを示す。
- 参考スコア(独自算出の注目度): 15.618287626892174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their recent popularity and well known advantages, dense retrievers
still lag behind sparse methods such as BM25 in their ability to reliably match
salient phrases and rare entities in the query. It has been argued that this is
an inherent limitation of dense models. We disprove this claim by introducing
the Salient Phrase Aware Retriever (SPAR), a dense retriever with the lexical
matching capacity of a sparse model. In particular, we show that a dense
retriever {\Lambda} can be trained to imitate a sparse one, and SPAR is built
by augmenting a standard dense retriever with {\Lambda}. When evaluated on five
open-domain question answering datasets and the MS MARCO passage retrieval
task, SPAR sets a new state of the art for dense and sparse retrievers and can
match or exceed the performance of more complicated dense-sparse hybrid
systems.
- Abstract(参考訳): 最近の人気とよく知られたアドバンテージにもかかわらず、高濃度なレトリバーはbm25のようなスパースなメソッドに遅れをとっており、クエリーで敬遠したフレーズとレアなエンティティと確実にマッチする能力を持っている。
これは密集したモデルに固有の制限であるという主張がある。
スパースモデルの語彙マッチング能力を持つ高密度検索器であるSPAR(Salient Phrase Aware Retriever)を導入することで,この主張を否定する。
特に高密度レトリバー {\Lambda} がスパースを模倣するように訓練できることを示し、SPARは標準密度レトリバーを {\Lambda} で増強することによって構築される。
5つのオープンドメイン質問応答データセットとMS MARCOパス検索タスクで評価すると、SPARは、密でスパースなレトリバーのための新しい技術状態を設定し、より複雑な疎いハイブリッドシステムの性能を一致または超えることができる。
関連論文リスト
- Mistral-SPLADE: LLMs for better Learned Sparse Retrieval [7.652738829153342]
本稿では,意味的キーワード拡張学習にデコーダのみを用いたモデルを提案する。
我々はMistralをバックボーンとして,SPLADEに似たLearned Sparse Retrieverを開発した。
提案実験は,デコーダのみに基づくスパース検索モデル (LLM) が既存のLSRシステムの性能を上回るという仮説を支持する。
論文 参考訳(メタデータ) (2024-08-20T18:21:54Z) - Unsupervised Multilingual Dense Retrieval via Generative Pseudo Labeling [32.10366004426449]
本稿では,教師なしの高密度多言語レトリバーUMRについて紹介する。
本稿では,多言語高密度検索器の性能を反復的に向上する2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T07:49:06Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - CONVERSER: Few-Shot Conversational Dense Retrieval with Synthetic Data
Generation [32.10366004426449]
対話型高密度検索のためのフレームワークであるConVERSERを提案する。
我々は,大言語モデルのテキスト内学習機能を利用して,検索コーパスの文節に与えられた会話クエリを生成する。
対話型検索ベンチマークOR-QuACとTREC CAsT 19の実験結果から,提案したConverSERは完全教師付きモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-09-13T06:40:24Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文 参考訳(メタデータ) (2022-10-25T00:53:06Z) - A Study on the Efficiency and Generalization of Light Hybrid Retrievers [28.08970760703045]
インデクシング効率の高い高密度レトリバー(DrBoost)を活用し、さらにDrBoostのメモリを削減するLITEレトリバーを導入する。
我々のハイブリッド-LITEレトリバーは、BM25とDPRのハイブリッドレトリバーの98.0%性能を維持しながら、13Xメモリを節約する。
論文 参考訳(メタデータ) (2022-10-04T04:22:46Z) - LED: Lexicon-Enlightened Dense Retriever for Large-Scale Retrieval [68.85686621130111]
そこで本研究では,高密度なレトリバーをレキシコン認識表現モデルに整合させることを提案する。
提案手法を3つの公開ベンチマークで評価した結果,教師と同等のレキシコン・アウェア・レトリバーにより,提案手法が一貫した,重要な改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-29T15:09:28Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。