論文の概要: Lexically-Accelerated Dense Retrieval
- arxiv url: http://arxiv.org/abs/2307.16779v1
- Date: Mon, 31 Jul 2023 15:44:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 13:40:20.933848
- Title: Lexically-Accelerated Dense Retrieval
- Title(参考訳): レキシカル・アクセラレーションドセンス検索
- Authors: Hrishikesh Kulkarni, Sean MacAvaney, Nazli Goharian, Ophir Frieder
- Abstract要約: LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
- 参考スコア(独自算出の注目度): 29.327878974130055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval approaches that score documents based on learned dense vectors
(i.e., dense retrieval) rather than lexical signals (i.e., conventional
retrieval) are increasingly popular. Their ability to identify related
documents that do not necessarily contain the same terms as those appearing in
the user's query (thereby improving recall) is one of their key advantages.
However, to actually achieve these gains, dense retrieval approaches typically
require an exhaustive search over the document collection, making them
considerably more expensive at query-time than conventional lexical approaches.
Several techniques aim to reduce this computational overhead by approximating
the results of a full dense retriever. Although these approaches reasonably
approximate the top results, they suffer in terms of recall -- one of the key
advantages of dense retrieval. We introduce 'LADR' (Lexically-Accelerated Dense
Retrieval), a simple-yet-effective approach that improves the efficiency of
existing dense retrieval models without compromising on retrieval
effectiveness. LADR uses lexical retrieval techniques to seed a dense retrieval
exploration that uses a document proximity graph. We explore two variants of
LADR: a proactive approach that expands the search space to the neighbors of
all seed documents, and an adaptive approach that selectively searches the
documents with the highest estimated relevance in an iterative fashion. Through
extensive experiments across a variety of dense retrieval models, we find that
LADR establishes a new dense retrieval effectiveness-efficiency Pareto frontier
among approximate k nearest neighbor techniques. Further, we find that when
tuned to take around 8ms per query in retrieval latency on our hardware, LADR
consistently achieves both precision and recall that are on par with an
exhaustive search on standard benchmarks.
- Abstract(参考訳): 語彙信号(従来の検索)ではなく、学習された高密度ベクトル(すなわち、高密度検索)に基づいて文書をスコアする検索手法が普及している。
ユーザのクエリに現れるものと同じ用語を必ずしも含まない関連ドキュメントを識別する能力(リコールを改善することによって)は、彼らの重要なメリットの1つだ。
しかし,これらを実際に実現するためには,高密度検索手法は一般的に文書コレクションを網羅的に検索する必要があるため,従来の語彙的手法よりもクエリ時の方がはるかに高価である。
完全高密度レトリバーの結果を近似することにより,この計算オーバーヘッドを削減する手法がいくつかある。
これらのアプローチは、トップの結果を合理的に近似するが、リコールの観点で苦しむ ― 密検索の重要な利点の1つだ。
本稿では, 検索効率を損なうことなく, 既存の高密度検索モデルの効率を向上する, 簡便な手法である 'LADR' (Lexically-Accelerated Dense Retrieval) を紹介する。
LADRは語彙検索技術を用いて文書近接グラフを用いた密度の高い探索を行う。
LADRの2つの変種を探索空間をすべてのシード文書の隣人に拡張する積極的アプローチと、文書を反復的に最も高い関連性で選択的に検索する適応的アプローチを探索する。
様々な密集検索モデルにわたる広範囲な実験により、LADRは近近近距離技術の中で新しい密集検索効率-効率のパレートフロンティアを確立する。
さらに、ハードウェア上での検索遅延でクエリ毎に約8msをチューニングすると、LADRは標準ベンチマークの徹底的な検索に匹敵する精度とリコールの両方を一貫して達成する。
関連論文リスト
- PairDistill: Pairwise Relevance Distillation for Dense Retrieval [35.067998820937284]
本稿ではペアワイズレバレンス蒸留(Pairwise Relevance Distillation, PairDistill)を導入する。
類似した文書間の微妙な区別を提供し、密集した検索モデルの訓練を強化する。
実験の結果、PairDistillは既存の手法よりも優れており、複数のベンチマークで最新の結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-10-02T09:51:42Z) - Efficient Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
筆者らは,Mixture-of-Logits (MoL) が普遍近似であり,学習された類似度関数を全て表現できることを示した。
MoLはレコメンデーション検索タスクに新たな最先端結果を設定し、学習した類似性を持つ近似トップk検索は、最大2桁のレイテンシでベースラインを上回ります。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Augmented Embeddings for Custom Retrievals [13.773007276544913]
本稿では,タスク固有性,異種性,厳密な検索を実現するための埋め込み変換機構であるAdapted Dense Retrievalを紹介する。
Dense Retrievalは、事前訓練されたブラックボックス埋め込みの低ランク残差適応を学習することで機能する。
論文 参考訳(メタデータ) (2023-10-09T03:29:35Z) - Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval [25.402767809863946]
逆ファイル構造は高密度検索を高速化する一般的な手法である。
本研究では,Hybrid Inverted Index (HI$2$)を提案する。
論文 参考訳(メタデータ) (2022-10-11T15:12:41Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。