論文の概要: Bi-Phase Enhanced IVFPQ for Time-Efficient Ad-hoc Retrieval
- arxiv url: http://arxiv.org/abs/2210.05521v1
- Date: Tue, 11 Oct 2022 15:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:04:13.981471
- Title: Bi-Phase Enhanced IVFPQ for Time-Efficient Ad-hoc Retrieval
- Title(参考訳): 時間効率アドホック検索のための二相強化ivfpq
- Authors: Peitian Zhang, Zheng Liu
- Abstract要約: IVFPQは、時間効率の良いアドホック検索のための一般的な指標パラダイムである。
潜在トピックの粗い粒度のため、検索性能に制限がある。
提案するBi-Phase IVFPQは,潜在トピックと明示的な用語の2種類の機能を用いて,倒立ファイルシステムを構築する。
- 参考スコア(独自算出の注目度): 3.300086793219779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: IVFPQ is a popular index paradigm for time-efficient ad-hoc retrieval.
Instead of traversing the entire database for relevant documents, it
accelerates the retrieval operation by 1) accessing a fraction of the database
guided the activation of latent topics in IVF (inverted file system), and 2)
approximating the exact relevance measurement based on PQ (product
quantization). However, the conventional IVFPQ is limited in retrieval
performance due to the coarse granularity of its latent topics. On the one
hand, it may result in severe loss of retrieval quality when visiting a small
number of topics; on the other hand, it will lead to a huge retrieval cost when
visiting a large number of topics.
To mitigate the above problem, we propose a novel framework named Bi-Phase
IVFPQ. It jointly uses two types of features: the latent topics and the
explicit terms, to build the inverted file system. Both types of features are
complementary to each other, which helps to achieve better coverage of the
relevant documents. Besides, the documents' memberships to different IVF
entries are learned by distilling knowledge from deep semantic models, which
substantially improves the index quality and retrieval accuracy. We perform
comprehensive empirical studies on popular ad-hoc retrieval benchmarks, whose
results verify the effectiveness and efficiency of our proposed framework.
- Abstract(参考訳): IVFPQは、時間効率の良いアドホック検索のための一般的な指標パラダイムである。
関連する文書のデータベース全体をトラバースする代わりに、検索操作を高速化する。
1) データベースのごく一部にアクセスすることで,IVF (inverted file system) における潜伏トピックの活性化をガイドし,
2)PQ(生成量化)に基づく正確な関連度測定を近似する。
しかし, 従来のivfpqは, 潜在トピックの粒度が粗いため, 検索性能に制限がある。
一方,少数のトピックを訪れると検索品質が著しく低下する可能性があり,また,多数のトピックを訪れると検索コストが大幅に低下する可能性がある。
そこで本研究では,二相ivfpqという新しい枠組みを提案する。
潜在トピックと明示的な用語の2つのタイプの機能を共同で使用して、逆ファイルシステムを構築する。
どちらのタイプの機能も互いに補完的であり、関連するドキュメントをよりよくカバーするのに役立ちます。
さらに、文書の異なるIVFエントリへのメンバシップは、深いセマンティックモデルから知識を抽出することによって学習され、インデックスの品質と精度が大幅に向上する。
提案手法の有効性と有効性を検証した,一般的なアドホック検索ベンチマークに関する総合的研究を行った。
関連論文リスト
- LexBoost: Improving Lexical Document Retrieval with Nearest Neighbors [37.64658206917278]
LexBoostは、インデックス化中に密集した検索アプローチを使用して、密集した隣人(コーパスグラフ)のネットワークを構築する。
我々は、文書の語彙的関連点と隣人のスコアの両方を、文書のランク付けに用いている。
LexBoost上の再ランクは、従来の高密度リランクよりも優れており、高いレイテンシの排他的高密度検索に匹敵する結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-25T18:11:37Z) - Early Exit Strategies for Approximate k-NN Search in Dense Retrieval [10.48678957367324]
アーリーエグジットのための最先端のA-kNNを構築し,忍耐の概念に基づく教師なし手法を提案する。
我々は,A-kNNの効率を最大5倍の高速化で向上すると同時に,無視可能な効率損失を達成できることを示す。
論文 参考訳(メタデータ) (2024-08-09T10:17:07Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking [58.37644304554906]
誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。
DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
論文 参考訳(メタデータ) (2024-06-05T01:19:44Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - HyP$^2$ Loss: Beyond Hypersphere Metric Space for Multi-label Image
Retrieval [20.53316810731414]
ハイブリッドプロキシペアロス(HyP$2$ロス)を用いた新しいメトリクス学習フレームワークを提案する。
提案されたHyP$2$Losは、学習可能なプロキシによるハイパースフィア空間の最適化と、無関係なペアのデータ-データ相関の探索に焦点を当てている。
論文 参考訳(メタデータ) (2022-08-14T15:06:27Z) - Overcomplete Deep Subspace Clustering Networks [80.16644725886968]
4つのベンチマークデータセットの実験結果から,クラスタリング誤差の観点から,DSCや他のクラスタリング手法に対する提案手法の有効性が示された。
また,本手法は,最高の性能を得るために事前学習を中止する点にDSCほど依存せず,騒音にも頑健である。
論文 参考訳(メタデータ) (2020-11-16T22:07:18Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。