論文の概要: Bi-Phase Enhanced IVFPQ for Time-Efficient Ad-hoc Retrieval
- arxiv url: http://arxiv.org/abs/2210.05521v1
- Date: Tue, 11 Oct 2022 15:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:04:13.981471
- Title: Bi-Phase Enhanced IVFPQ for Time-Efficient Ad-hoc Retrieval
- Title(参考訳): 時間効率アドホック検索のための二相強化ivfpq
- Authors: Peitian Zhang, Zheng Liu
- Abstract要約: IVFPQは、時間効率の良いアドホック検索のための一般的な指標パラダイムである。
潜在トピックの粗い粒度のため、検索性能に制限がある。
提案するBi-Phase IVFPQは,潜在トピックと明示的な用語の2種類の機能を用いて,倒立ファイルシステムを構築する。
- 参考スコア(独自算出の注目度): 3.300086793219779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: IVFPQ is a popular index paradigm for time-efficient ad-hoc retrieval.
Instead of traversing the entire database for relevant documents, it
accelerates the retrieval operation by 1) accessing a fraction of the database
guided the activation of latent topics in IVF (inverted file system), and 2)
approximating the exact relevance measurement based on PQ (product
quantization). However, the conventional IVFPQ is limited in retrieval
performance due to the coarse granularity of its latent topics. On the one
hand, it may result in severe loss of retrieval quality when visiting a small
number of topics; on the other hand, it will lead to a huge retrieval cost when
visiting a large number of topics.
To mitigate the above problem, we propose a novel framework named Bi-Phase
IVFPQ. It jointly uses two types of features: the latent topics and the
explicit terms, to build the inverted file system. Both types of features are
complementary to each other, which helps to achieve better coverage of the
relevant documents. Besides, the documents' memberships to different IVF
entries are learned by distilling knowledge from deep semantic models, which
substantially improves the index quality and retrieval accuracy. We perform
comprehensive empirical studies on popular ad-hoc retrieval benchmarks, whose
results verify the effectiveness and efficiency of our proposed framework.
- Abstract(参考訳): IVFPQは、時間効率の良いアドホック検索のための一般的な指標パラダイムである。
関連する文書のデータベース全体をトラバースする代わりに、検索操作を高速化する。
1) データベースのごく一部にアクセスすることで,IVF (inverted file system) における潜伏トピックの活性化をガイドし,
2)PQ(生成量化)に基づく正確な関連度測定を近似する。
しかし, 従来のivfpqは, 潜在トピックの粒度が粗いため, 検索性能に制限がある。
一方,少数のトピックを訪れると検索品質が著しく低下する可能性があり,また,多数のトピックを訪れると検索コストが大幅に低下する可能性がある。
そこで本研究では,二相ivfpqという新しい枠組みを提案する。
潜在トピックと明示的な用語の2つのタイプの機能を共同で使用して、逆ファイルシステムを構築する。
どちらのタイプの機能も互いに補完的であり、関連するドキュメントをよりよくカバーするのに役立ちます。
さらに、文書の異なるIVFエントリへのメンバシップは、深いセマンティックモデルから知識を抽出することによって学習され、インデックスの品質と精度が大幅に向上する。
提案手法の有効性と有効性を検証した,一般的なアドホック検索ベンチマークに関する総合的研究を行った。
関連論文リスト
- Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - Genie: A new, fast, and outlier-resistant hierarchical clustering
algorithm [3.7491936479803054]
我々はGenieと呼ばれる新しい階層的クラスタリングリンク基準を提案する。
我々のアルゴリズムは、2つのクラスタを、選択された経済不平等尺度が与えられたしきい値を超えないようにリンクする。
このアルゴリズムのリファレンス実装は、Rのためのオープンソースの'genie'パッケージに含まれている。
論文 参考訳(メタデータ) (2022-09-13T06:42:53Z) - HyP$^2$ Loss: Beyond Hypersphere Metric Space for Multi-label Image
Retrieval [20.53316810731414]
ハイブリッドプロキシペアロス(HyP$2$ロス)を用いた新しいメトリクス学習フレームワークを提案する。
提案されたHyP$2$Losは、学習可能なプロキシによるハイパースフィア空間の最適化と、無関係なペアのデータ-データ相関の探索に焦点を当てている。
論文 参考訳(メタデータ) (2022-08-14T15:06:27Z) - Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:53:44Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z) - Overcomplete Deep Subspace Clustering Networks [80.16644725886968]
4つのベンチマークデータセットの実験結果から,クラスタリング誤差の観点から,DSCや他のクラスタリング手法に対する提案手法の有効性が示された。
また,本手法は,最高の性能を得るために事前学習を中止する点にDSCほど依存せず,騒音にも頑健である。
論文 参考訳(メタデータ) (2020-11-16T22:07:18Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。