論文の概要: Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2210.05521v3
- Date: Tue, 17 Oct 2023 07:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 11:16:03.337799
- Title: Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval
- Title(参考訳): 密度検索のためのロバスト加速器Hybrid Inverted Index
- Authors: Peitian Zhang, Zheng Liu, Shitao Xiao, Zhicheng Dou, Jing Yao
- Abstract要約: 逆ファイル構造は高密度検索を高速化する一般的な手法である。
本研究では,Hybrid Inverted Index (HI$2$)を提案する。
- 参考スコア(独自算出の注目度): 25.402767809863946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverted file structure is a common technique for accelerating dense
retrieval. It clusters documents based on their embeddings; during searching,
it probes nearby clusters w.r.t. an input query and only evaluates documents
within them by subsequent codecs, thus avoiding the expensive cost of
exhaustive traversal. However, the clustering is always lossy, which results in
the miss of relevant documents in the probed clusters and hence degrades
retrieval quality. In contrast, lexical matching, such as overlaps of salient
terms, tends to be strong feature for identifying relevant documents. In this
work, we present the Hybrid Inverted Index (HI$^2$), where the embedding
clusters and salient terms work collaboratively to accelerate dense retrieval.
To make best of both effectiveness and efficiency, we devise a cluster selector
and a term selector, to construct compact inverted lists and efficiently
searching through them. Moreover, we leverage simple unsupervised algorithms as
well as end-to-end knowledge distillation to learn these two modules, with the
latter further boosting the effectiveness. Based on comprehensive experiments
on popular retrieval benchmarks, we verify that clusters and terms indeed
complement each other, enabling HI$^2$ to achieve lossless retrieval quality
with competitive efficiency across various index settings. Our code and
checkpoint are publicly available at
https://github.com/namespace-Pt/Adon/tree/HI2.
- Abstract(参考訳): 逆ファイル構造は高密度検索を高速化する一般的な手法である。
ドキュメントは埋め込みに基づいてクラスタ化され、検索中に近くのクラスタw.r.t.を探索し、後続のコーデックによるドキュメントの評価のみを行う。
しかしながら、クラスタリングは常に失われるので、調査対象クラスタ内の関連ドキュメントのミスが発生し、検索品質が低下する。
対照的に、健全な用語の重複のような語彙マッチングは、関係する文書を特定するのに強い特徴である。
本研究では,組込みクラスタとサラエント項が協調的に動作するハイブリッド逆インデックス(hi$^2$)を提案する。
有効性と効率の両立を図るため,クラスタセレクタとタームセレクタを考案し,コンパクトな逆リストを構築し,それらを効率的に探索する。
さらに、単純な教師なしアルゴリズムとエンドツーエンドの知識蒸留を利用してこれらの2つのモジュールを学習し、後者の有効性をさらに向上させる。
一般的な検索ベンチマークの総合的な実験に基づいて、クラスタと用語が互いに実際に補完していることを確認し、HI$^2$で、さまざまなインデックス設定の競争効率で、損失のない検索品質を達成できる。
私たちのコードとチェックポイントはhttps://github.com/namespace-Pt/Adon/tree/HI2で公開されています。
関連論文リスト
- Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - Genie: A new, fast, and outlier-resistant hierarchical clustering
algorithm [3.7491936479803054]
我々はGenieと呼ばれる新しい階層的クラスタリングリンク基準を提案する。
我々のアルゴリズムは、2つのクラスタを、選択された経済不平等尺度が与えられたしきい値を超えないようにリンクする。
このアルゴリズムのリファレンス実装は、Rのためのオープンソースの'genie'パッケージに含まれている。
論文 参考訳(メタデータ) (2022-09-13T06:42:53Z) - HyP$^2$ Loss: Beyond Hypersphere Metric Space for Multi-label Image
Retrieval [20.53316810731414]
ハイブリッドプロキシペアロス(HyP$2$ロス)を用いた新しいメトリクス学習フレームワークを提案する。
提案されたHyP$2$Losは、学習可能なプロキシによるハイパースフィア空間の最適化と、無関係なペアのデータ-データ相関の探索に焦点を当てている。
論文 参考訳(メタデータ) (2022-08-14T15:06:27Z) - Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:53:44Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z) - Overcomplete Deep Subspace Clustering Networks [80.16644725886968]
4つのベンチマークデータセットの実験結果から,クラスタリング誤差の観点から,DSCや他のクラスタリング手法に対する提案手法の有効性が示された。
また,本手法は,最高の性能を得るために事前学習を中止する点にDSCほど依存せず,騒音にも頑健である。
論文 参考訳(メタデータ) (2020-11-16T22:07:18Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。