論文の概要: Pairing Clustered Inverted Indexes with kNN Graphs for Fast Approximate Retrieval over Learned Sparse Representations
- arxiv url: http://arxiv.org/abs/2408.04443v1
- Date: Thu, 08 Aug 2024 13:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 18:21:48.217839
- Title: Pairing Clustered Inverted Indexes with kNN Graphs for Fast Approximate Retrieval over Learned Sparse Representations
- Title(参考訳): 学習スパース表現上の高速近似検索のためのkNNグラフを用いたクラスタ化逆インデックスのペアリング
- Authors: Sebastian Bruch, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini,
- Abstract要約: 本稿では,高精度な近似探索アルゴリズムである地震探査について述べる。
地震は、最先端の逆インデックスベースのソリューションよりも1~2桁高速である。
まず、任意にではなく、重要な順にブロックを横断する。
我々の拡張は、地震波と呼ばれ、ほぼ正確に、地震の2.2倍の速さで到達することができる。
- 参考スコア(独自算出の注目度): 8.796275989527054
- License:
- Abstract: Learned sparse representations form an effective and interpretable class of embeddings for text retrieval. While exact top-k retrieval over such embeddings faces efficiency challenges, a recent algorithm called Seismic has enabled remarkably fast, highly-accurate approximate retrieval. Seismic statically prunes inverted lists, organizes each list into geometrically-cohesive blocks, and augments each block with a summary vector. At query time, each inverted list associated with a query term is traversed one block at a time in an arbitrary order, with the inner product between the query and summaries determining if a block must be evaluated. When a block is deemed promising, its documents are fully evaluated with a forward index. Seismic is one to two orders of magnitude faster than state-of-the-art inverted index-based solutions and significantly outperforms the winning graph-based submissions to the BigANN 2023 Challenge. In this work, we speed up Seismic further by introducing two innovations to its query processing subroutine. First, we traverse blocks in order of importance, rather than arbitrarily. Second, we take the list of documents retrieved by Seismic and expand it to include the neighbors of each document using an offline k-regular nearest neighbor graph; the expanded list is then ranked to produce the final top-k set. Experiments on two public datasets show that our extension, named SeismicWave, can reach almost-exact accuracy levels and is up to 2.2x faster than Seismic.
- Abstract(参考訳): 学習されたスパース表現は、テキスト検索のための効果的な、解釈可能な埋め込みのクラスを形成する。
このような埋め込みによる正確なトップk検索は効率上の課題に直面しているが、最近の地震法と呼ばれるアルゴリズムは驚くほど高速で高精度な近似的検索を可能にしている。
スタティックなプルーネは逆リストとなり、各リストを幾何学的に結合したブロックに整理し、各ブロックを要約ベクトルで拡張する。
クエリ時に、クエリ項に関連付けられた各逆リストを任意の順序で1ブロックずつトラバースし、クエリと要約の間の内部積がブロックの評価を判断する。
ブロックが有望であると判断された場合、そのドキュメントはフォワードインデックスで完全に評価される。
地震は最先端の逆インデックスベースのソリューションよりも1~2桁高速で、BigANN 2023 Challengeの勝利グラフベースの提案よりも大幅に優れています。
本研究では,その問合せ処理サブルーチンに2つの革新を導入することで,地震波の高速化を図る。
まず、任意にではなく、重要な順にブロックを横切る。
第2に、地震によって検索された文書のリストを、オフラインのk正規近傍グラフを用いて各文書の隣人を含むように拡張し、拡張されたリストを、最終トップk集合を生成するためにランク付けする。
2つの公開データセットの実験により、我々の拡張は、地震波と呼ばれ、ほぼ正確に、地震の2.2倍の速さで到達できることが示されている。
関連論文リスト
- Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval [25.402767809863946]
逆ファイル構造は高密度検索を高速化する一般的な手法である。
本研究では,Hybrid Inverted Index (HI$2$)を提案する。
論文 参考訳(メタデータ) (2022-10-11T15:12:41Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - An Efficient Coarse-to-Fine Facet-Aware Unsupervised Summarization
Framework based on Semantic Blocks [27.895044398724664]
教師なし長文要約のためのC2F-FAR(Coarse-to-Fine Facet-Aware Ranking)フレームワークを提案する。
粗いレベルでは、文書をファセット対応のセマンティックブロックに分割し、無意味なブロックをフィルタリングする新しいセグメントアルゴリズムを提案する。
詳細な段階において,各ブロックで有能な文を選択し,選択した文から最終要約を抽出する。
論文 参考訳(メタデータ) (2022-08-17T12:18:36Z) - Reinforcement Learning Based Query Vertex Ordering Model for Subgraph
Matching [58.39970828272366]
グラフマッチングアルゴリズムは、クエリグラフの埋め込みをデータグラフGに列挙する。
マッチング順序は、これらのバックトラックに基づくサブグラフマッチングアルゴリズムの時間効率において重要な役割を果たす。
本稿では,Reinforcement Learning (RL) と Graph Neural Networks (GNN) 技術を適用して,グラフマッチングアルゴリズムの高品質なマッチング順序を生成する。
論文 参考訳(メタデータ) (2022-01-25T00:10:03Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z) - Temporal Query Networks for Fine-grained Video Understanding [88.9877174286279]
我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。
本手法は,細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークを広範囲に評価し,rgb機能のみを用いて最先端の動作分類を克服した。
論文 参考訳(メタデータ) (2021-04-19T17:58:48Z) - COIL: Revisit Exact Lexical Match in Information Retrieval with
Contextualized Inverted List [19.212507277554415]
COILは文脈化された正確な一致検索アーキテクチャであり、意味的語彙マッチングをもたらす。
COILは古典的な語彙レトリバーと最先端の深いLMレトリバーを同等またはより小さいレイテンシで上回る。
論文 参考訳(メタデータ) (2021-04-15T00:53:54Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。