論文の概要: Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2210.05521v3
- Date: Tue, 17 Oct 2023 07:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 11:16:03.337799
- Title: Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval
- Title(参考訳): 密度検索のためのロバスト加速器Hybrid Inverted Index
- Authors: Peitian Zhang, Zheng Liu, Shitao Xiao, Zhicheng Dou, Jing Yao
- Abstract要約: 逆ファイル構造は高密度検索を高速化する一般的な手法である。
本研究では,Hybrid Inverted Index (HI$2$)を提案する。
- 参考スコア(独自算出の注目度): 25.402767809863946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverted file structure is a common technique for accelerating dense
retrieval. It clusters documents based on their embeddings; during searching,
it probes nearby clusters w.r.t. an input query and only evaluates documents
within them by subsequent codecs, thus avoiding the expensive cost of
exhaustive traversal. However, the clustering is always lossy, which results in
the miss of relevant documents in the probed clusters and hence degrades
retrieval quality. In contrast, lexical matching, such as overlaps of salient
terms, tends to be strong feature for identifying relevant documents. In this
work, we present the Hybrid Inverted Index (HI$^2$), where the embedding
clusters and salient terms work collaboratively to accelerate dense retrieval.
To make best of both effectiveness and efficiency, we devise a cluster selector
and a term selector, to construct compact inverted lists and efficiently
searching through them. Moreover, we leverage simple unsupervised algorithms as
well as end-to-end knowledge distillation to learn these two modules, with the
latter further boosting the effectiveness. Based on comprehensive experiments
on popular retrieval benchmarks, we verify that clusters and terms indeed
complement each other, enabling HI$^2$ to achieve lossless retrieval quality
with competitive efficiency across various index settings. Our code and
checkpoint are publicly available at
https://github.com/namespace-Pt/Adon/tree/HI2.
- Abstract(参考訳): 逆ファイル構造は高密度検索を高速化する一般的な手法である。
ドキュメントは埋め込みに基づいてクラスタ化され、検索中に近くのクラスタw.r.t.を探索し、後続のコーデックによるドキュメントの評価のみを行う。
しかしながら、クラスタリングは常に失われるので、調査対象クラスタ内の関連ドキュメントのミスが発生し、検索品質が低下する。
対照的に、健全な用語の重複のような語彙マッチングは、関係する文書を特定するのに強い特徴である。
本研究では,組込みクラスタとサラエント項が協調的に動作するハイブリッド逆インデックス(hi$^2$)を提案する。
有効性と効率の両立を図るため,クラスタセレクタとタームセレクタを考案し,コンパクトな逆リストを構築し,それらを効率的に探索する。
さらに、単純な教師なしアルゴリズムとエンドツーエンドの知識蒸留を利用してこれらの2つのモジュールを学習し、後者の有効性をさらに向上させる。
一般的な検索ベンチマークの総合的な実験に基づいて、クラスタと用語が互いに実際に補完していることを確認し、HI$^2$で、さまざまなインデックス設定の競争効率で、損失のない検索品質を達成できる。
私たちのコードとチェックポイントはhttps://github.com/namespace-Pt/Adon/tree/HI2で公開されています。
関連論文リスト
- LexBoost: Improving Lexical Document Retrieval with Nearest Neighbors [37.64658206917278]
LexBoostは、インデックス化中に密集した検索アプローチを使用して、密集した隣人(コーパスグラフ)のネットワークを構築する。
我々は、文書の語彙的関連点と隣人のスコアの両方を、文書のランク付けに用いている。
LexBoost上の再ランクは、従来の高密度リランクよりも優れており、高いレイテンシの排他的高密度検索に匹敵する結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-25T18:11:37Z) - Early Exit Strategies for Approximate k-NN Search in Dense Retrieval [10.48678957367324]
アーリーエグジットのための最先端のA-kNNを構築し,忍耐の概念に基づく教師なし手法を提案する。
我々は,A-kNNの効率を最大5倍の高速化で向上すると同時に,無視可能な効率損失を達成できることを示す。
論文 参考訳(メタデータ) (2024-08-09T10:17:07Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking [58.37644304554906]
誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。
DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
論文 参考訳(メタデータ) (2024-06-05T01:19:44Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - HyP$^2$ Loss: Beyond Hypersphere Metric Space for Multi-label Image
Retrieval [20.53316810731414]
ハイブリッドプロキシペアロス(HyP$2$ロス)を用いた新しいメトリクス学習フレームワークを提案する。
提案されたHyP$2$Losは、学習可能なプロキシによるハイパースフィア空間の最適化と、無関係なペアのデータ-データ相関の探索に焦点を当てている。
論文 参考訳(メタデータ) (2022-08-14T15:06:27Z) - Overcomplete Deep Subspace Clustering Networks [80.16644725886968]
4つのベンチマークデータセットの実験結果から,クラスタリング誤差の観点から,DSCや他のクラスタリング手法に対する提案手法の有効性が示された。
また,本手法は,最高の性能を得るために事前学習を中止する点にDSCほど依存せず,騒音にも頑健である。
論文 参考訳(メタデータ) (2020-11-16T22:07:18Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。