Fugu-MT 論文翻訳(概要): Bi-Phase Enhanced IVFPQ for Time-Efficient Ad-hoc Retrieval

論文の概要: Bi-Phase Enhanced IVFPQ for Time-Efficient Ad-hoc Retrieval

arxiv url: http://arxiv.org/abs/2210.05521v1
Date: Tue, 11 Oct 2022 15:12:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 17:04:13.981471
Title: Bi-Phase Enhanced IVFPQ for Time-Efficient Ad-hoc Retrieval
Title（参考訳）: 時間効率アドホック検索のための二相強化ivfpq
Authors: Peitian Zhang, Zheng Liu
Abstract要約: IVFPQは、時間効率の良いアドホック検索のための一般的な指標パラダイムである。潜在トピックの粗い粒度のため、検索性能に制限がある。提案するBi-Phase IVFPQは,潜在トピックと明示的な用語の2種類の機能を用いて,倒立ファイルシステムを構築する。
参考スコア（独自算出の注目度）: 3.300086793219779
License: http://creativecommons.org/licenses/by/4.0/
Abstract: IVFPQ is a popular index paradigm for time-efficient ad-hoc retrieval. Instead of traversing the entire database for relevant documents, it accelerates the retrieval operation by 1) accessing a fraction of the database guided the activation of latent topics in IVF (inverted file system), and 2) approximating the exact relevance measurement based on PQ (product quantization). However, the conventional IVFPQ is limited in retrieval performance due to the coarse granularity of its latent topics. On the one hand, it may result in severe loss of retrieval quality when visiting a small number of topics; on the other hand, it will lead to a huge retrieval cost when visiting a large number of topics. To mitigate the above problem, we propose a novel framework named Bi-Phase IVFPQ. It jointly uses two types of features: the latent topics and the explicit terms, to build the inverted file system. Both types of features are complementary to each other, which helps to achieve better coverage of the relevant documents. Besides, the documents' memberships to different IVF entries are learned by distilling knowledge from deep semantic models, which substantially improves the index quality and retrieval accuracy. We perform comprehensive empirical studies on popular ad-hoc retrieval benchmarks, whose results verify the effectiveness and efficiency of our proposed framework.
Abstract（参考訳）: IVFPQは、時間効率の良いアドホック検索のための一般的な指標パラダイムである。関連する文書のデータベース全体をトラバースする代わりに、検索操作を高速化する。 1) データベースのごく一部にアクセスすることで,IVF (inverted file system) における潜伏トピックの活性化をガイドし, 2)PQ(生成量化)に基づく正確な関連度測定を近似する。しかし, 従来のivfpqは, 潜在トピックの粒度が粗いため, 検索性能に制限がある。一方,少数のトピックを訪れると検索品質が著しく低下する可能性があり,また,多数のトピックを訪れると検索コストが大幅に低下する可能性がある。そこで本研究では,二相ivfpqという新しい枠組みを提案する。潜在トピックと明示的な用語の2つのタイプの機能を共同で使用して、逆ファイルシステムを構築する。どちらのタイプの機能も互いに補完的であり、関連するドキュメントをよりよくカバーするのに役立ちます。さらに、文書の異なるIVFエントリへのメンバシップは、深いセマンティックモデルから知識を抽出することによって学習され、インデックスの品質と精度が大幅に向上する。提案手法の有効性と有効性を検証した,一般的なアドホック検索ベンチマークに関する総合的研究を行った。

関連論文リスト

Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。 AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文参考訳（メタデータ） (2026-02-24T18:57:33Z)
Forward Index Compression for Learned Sparse Retrieval [15.629655228398567]
我々は、全てのアルゴリズム的なフレーバーに共通するデータ構造のサイズに焦点を合わせ、インデックス全体のサイズであるフォワードインデックスのかなりの部分を構成する。特に,検索品質や内部積計算のレイテンシを損なうことなく,フォワードインデックスのストレージフットプリントを削減する圧縮手法を提案する。
論文参考訳（メタデータ） (2026-02-05T08:35:17Z)
MODE: Mixture of Document Experts for RAG [0.532836690371986]
MODEは、よりきめ細かい近接探索をクラスタ・アンド・ルート検索に置き換える。ドキュメントは埋め込み、セマンティック・コヒーレントなクラスタにグループ化され、キャッシュされたセントロイドで表現される。 100-500チャンクのHotpotQAとSQuADコーパスでは、MODEは解答品質において密度の高い検索基準線を超える。
論文参考訳（メタデータ） (2025-08-27T17:45:16Z)
Information-Theoretic Generative Clustering of Documents [24.56214029342293]
文書の集合をクラスタリングするための生成クラスタリング(GC)を$mathrmX$で提示する。大規模言語モデル(LLM)は確率分布を提供するため、2つの文書間の類似性を厳密に定義することができる。我々はGCが最先端のパフォーマンスを達成し、従来のクラスタリング手法よりも大きなマージンで優れていることを示す。
論文参考訳（メタデータ） (2024-12-18T06:21:21Z)
LexBoost: Improving Lexical Document Retrieval with Nearest Neighbors [37.64658206917278]
LexBoostは、インデックス化中に密集した検索アプローチを使用して、密集した隣人(コーパスグラフ)のネットワークを構築する。我々は、文書の語彙的関連点と隣人のスコアの両方を、文書のランク付けに用いている。 LexBoost上の再ランクは、従来の高密度リランクよりも優れており、高いレイテンシの排他的高密度検索に匹敵する結果をもたらすことを示す。
論文参考訳（メタデータ） (2024-08-25T18:11:37Z)
Early Exit Strategies for Approximate k-NN Search in Dense Retrieval [10.48678957367324]
アーリーエグジットのための最先端のA-kNNを構築し,忍耐の概念に基づく教師なし手法を提案する。我々は,A-kNNの効率を最大5倍の高速化で向上すると同時に,無視可能な効率損失を達成できることを示す。
論文参考訳（メタデータ） (2024-08-09T10:17:07Z)
ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文参考訳（メタデータ） (2024-07-31T08:29:35Z)
SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文参考訳（メタデータ） (2024-06-15T21:57:03Z)
DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking [58.37644304554906]
誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。 DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
論文参考訳（メタデータ） (2024-06-05T01:19:44Z)
Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文参考訳（メタデータ） (2024-03-31T13:29:43Z)
Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。 LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文参考訳（メタデータ） (2023-07-31T15:44:26Z)
HyP$^2$ Loss: Beyond Hypersphere Metric Space for Multi-label Image Retrieval [20.53316810731414]
ハイブリッドプロキシペアロス(HyP$2$ロス)を用いた新しいメトリクス学習フレームワークを提案する。提案されたHyP$2$Losは、学習可能なプロキシによるハイパースフィア空間の最適化と、無関係なペアのデータ-データ相関の探索に焦点を当てている。
論文参考訳（メタデータ） (2022-08-14T15:06:27Z)
Overcomplete Deep Subspace Clustering Networks [80.16644725886968]
4つのベンチマークデータセットの実験結果から,クラスタリング誤差の観点から,DSCや他のクラスタリング手法に対する提案手法の有効性が示された。また,本手法は,最高の性能を得るために事前学習を中止する点にDSCほど依存せず,騒音にも頑健である。
論文参考訳（メタデータ） (2020-11-16T22:07:18Z)
Progressively Pretrained Dense Corpus Index for Open-Domain Question Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文参考訳（メタデータ） (2020-04-30T18:09:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。