論文の概要: LexBoost: Improving Lexical Document Retrieval with Nearest Neighbors
- arxiv url: http://arxiv.org/abs/2409.05882v1
- Date: Sun, 25 Aug 2024 18:11:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 16:53:35.238759
- Title: LexBoost: Improving Lexical Document Retrieval with Nearest Neighbors
- Title(参考訳): LexBoost: 最隣の人たちによる語彙的ドキュメント検索の改善
- Authors: Hrishikesh Kulkarni, Nazli Goharian, Ophir Frieder, Sean MacAvaney,
- Abstract要約: LexBoostは、インデックス化中に密集した検索アプローチを使用して、密集した隣人(コーパスグラフ)のネットワークを構築する。
我々は、文書の語彙的関連点と隣人のスコアの両方を、文書のランク付けに用いている。
LexBoost上の再ランクは、従来の高密度リランクよりも優れており、高いレイテンシの排他的高密度検索に匹敵する結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 37.64658206917278
- License:
- Abstract: Sparse retrieval methods like BM25 are based on lexical overlap, focusing on the surface form of the terms that appear in the query and the document. The use of inverted indices in these methods leads to high retrieval efficiency. On the other hand, dense retrieval methods are based on learned dense vectors and, consequently, are effective but comparatively slow. Since sparse and dense methods approach problems differently and use complementary relevance signals, approximation methods were proposed to balance effectiveness and efficiency. For efficiency, approximation methods like HNSW are frequently used to approximate exhaustive dense retrieval. However, approximation techniques still exhibit considerably higher latency than sparse approaches. We propose LexBoost that first builds a network of dense neighbors (a corpus graph) using a dense retrieval approach while indexing. Then, during retrieval, we consider both a document's lexical relevance scores and its neighbors' scores to rank the documents. In LexBoost this remarkably simple application of the Cluster Hypothesis contributes to stronger ranking effectiveness while contributing little computational overhead (since the corpus graph is constructed offline). The method is robust across the number of neighbors considered, various fusion parameters for determining the scores, and different dataset construction methods. We also show that re-ranking on top of LexBoost outperforms traditional dense re-ranking and leads to results comparable with higher-latency exhaustive dense retrieval.
- Abstract(参考訳): BM25のようなスパース検索手法は語彙の重なりに基づいており、クエリやドキュメントに現れる用語の表面形式に重点を置いている。
これらの方法における逆インデックスの使用は、高い検索効率をもたらす。
一方、高密度検索法は、学習された高密度ベクトルに基づいており、その結果、有効であるが比較的遅い。
スパース法と高密度法は相補的関連信号を用いて異なる問題にアプローチするため,効率と効率のバランスをとるために近似法が提案された。
効率性のために、HNSWのような近似法は、徹底的な高密度検索を近似するために頻繁に用いられる。
しかし、近似技術はスパースアプローチよりもかなり高いレイテンシを示す。
本稿では、まず、インデックス化中に高密度検索手法を用いて、高密度隣人(コーパスグラフ)のネットワークを構築するLexBoostを提案する。
そして,検索の際には,文書の語彙的関連点と近隣住民のスコアから文書のランク付けを行う。
LexBoostでは、クラスタ仮説の驚くほど単純な応用は、計算オーバーヘッドの少ない(コーパスグラフはオフラインで構築されているため)ながら、より強力なランキングの有効性に寄与する。
この手法は、検討された隣人の数、スコアを決定するための様々な融合パラメータ、異なるデータセット構築方法にまたがって頑健である。
また、LexBoost上でのリランクは従来の高密度リランクよりも優れており、高いレイテンシの排他的高密度検索に匹敵する結果をもたらすことも示している。
関連論文リスト
- Efficient Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
筆者らは,Mixture-of-Logits (MoL) が普遍近似であり,学習された類似度関数を全て表現できることを示した。
MoLはレコメンデーション検索タスクに新たな最先端結果を設定し、学習した類似性を持つ近似トップk検索は、最大2桁のレイテンシでベースラインを上回ります。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval [25.402767809863946]
逆ファイル構造は高密度検索を高速化する一般的な手法である。
本研究では,Hybrid Inverted Index (HI$2$)を提案する。
論文 参考訳(メタデータ) (2022-10-11T15:12:41Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - Recall@k Surrogate Loss with Large Batches and Similarity Mixup [62.67458021725227]
微分不可能な場合、評価計量の勾配降下による直接最適化は不可能である。
本研究は,リコールにおける相異なるサロゲート損失を提案する。
提案手法は,複数の画像検索ベンチマークにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-08-25T11:09:11Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。