論文の概要: Lexically-Accelerated Dense Retrieval
- arxiv url: http://arxiv.org/abs/2307.16779v1
- Date: Mon, 31 Jul 2023 15:44:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 13:40:20.933848
- Title: Lexically-Accelerated Dense Retrieval
- Title(参考訳): レキシカル・アクセラレーションドセンス検索
- Authors: Hrishikesh Kulkarni, Sean MacAvaney, Nazli Goharian, Ophir Frieder
- Abstract要約: LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
- 参考スコア(独自算出の注目度): 29.327878974130055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval approaches that score documents based on learned dense vectors
(i.e., dense retrieval) rather than lexical signals (i.e., conventional
retrieval) are increasingly popular. Their ability to identify related
documents that do not necessarily contain the same terms as those appearing in
the user's query (thereby improving recall) is one of their key advantages.
However, to actually achieve these gains, dense retrieval approaches typically
require an exhaustive search over the document collection, making them
considerably more expensive at query-time than conventional lexical approaches.
Several techniques aim to reduce this computational overhead by approximating
the results of a full dense retriever. Although these approaches reasonably
approximate the top results, they suffer in terms of recall -- one of the key
advantages of dense retrieval. We introduce 'LADR' (Lexically-Accelerated Dense
Retrieval), a simple-yet-effective approach that improves the efficiency of
existing dense retrieval models without compromising on retrieval
effectiveness. LADR uses lexical retrieval techniques to seed a dense retrieval
exploration that uses a document proximity graph. We explore two variants of
LADR: a proactive approach that expands the search space to the neighbors of
all seed documents, and an adaptive approach that selectively searches the
documents with the highest estimated relevance in an iterative fashion. Through
extensive experiments across a variety of dense retrieval models, we find that
LADR establishes a new dense retrieval effectiveness-efficiency Pareto frontier
among approximate k nearest neighbor techniques. Further, we find that when
tuned to take around 8ms per query in retrieval latency on our hardware, LADR
consistently achieves both precision and recall that are on par with an
exhaustive search on standard benchmarks.
- Abstract(参考訳): 語彙信号(従来の検索)ではなく、学習された高密度ベクトル(すなわち、高密度検索)に基づいて文書をスコアする検索手法が普及している。
ユーザのクエリに現れるものと同じ用語を必ずしも含まない関連ドキュメントを識別する能力(リコールを改善することによって)は、彼らの重要なメリットの1つだ。
しかし,これらを実際に実現するためには,高密度検索手法は一般的に文書コレクションを網羅的に検索する必要があるため,従来の語彙的手法よりもクエリ時の方がはるかに高価である。
完全高密度レトリバーの結果を近似することにより,この計算オーバーヘッドを削減する手法がいくつかある。
これらのアプローチは、トップの結果を合理的に近似するが、リコールの観点で苦しむ ― 密検索の重要な利点の1つだ。
本稿では, 検索効率を損なうことなく, 既存の高密度検索モデルの効率を向上する, 簡便な手法である 'LADR' (Lexically-Accelerated Dense Retrieval) を紹介する。
LADRは語彙検索技術を用いて文書近接グラフを用いた密度の高い探索を行う。
LADRの2つの変種を探索空間をすべてのシード文書の隣人に拡張する積極的アプローチと、文書を反復的に最も高い関連性で選択的に検索する適応的アプローチを探索する。
様々な密集検索モデルにわたる広範囲な実験により、LADRは近近近距離技術の中で新しい密集検索効率-効率のパレートフロンティアを確立する。
さらに、ハードウェア上での検索遅延でクエリ毎に約8msをチューニングすると、LADRは標準ベンチマークの徹底的な検索に匹敵する精度とリコールの両方を一貫して達成する。
関連論文リスト
- Dense X Retrieval: What Retrieval Granularity Should We Use? [59.359325855708974]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
提案手法はテキスト内の原子式として定義され,それぞれが別個のファクトイドをカプセル化している。
その結果,命題に基づく検索は,従来の通訳法や文による検索方法よりも格段に優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Augmented Embeddings for Custom Retrievals [13.773007276544913]
本稿では,タスク固有性,異種性,厳密な検索を実現するための埋め込み変換機構であるAdapted Dense Retrievalを紹介する。
Dense Retrievalは、事前訓練されたブラックボックス埋め込みの低ランク残差適応を学習することで機能する。
論文 参考訳(メタデータ) (2023-10-09T03:29:35Z) - Natural Logic-guided Autoregressive Multi-hop Document Retrieval for
Fact Verification [21.04611844009438]
マルチホップ検索のための新しい検索・参照手法を提案する。
知識ソース内の文書と、以前検索された文書から文を共同でスコアする検索器で構成されている。
証拠が十分であると判断された場合、検索プロセスを動的に終了する証明システムによってガイドされる。
論文 参考訳(メタデータ) (2022-12-10T11:32:38Z) - Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval [25.402767809863946]
逆ファイル構造は高密度検索を高速化する一般的な手法である。
本研究では,Hybrid Inverted Index (HI$2$)を提案する。
論文 参考訳(メタデータ) (2022-10-11T15:12:41Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。