論文の概要: Pairing Clustered Inverted Indexes with kNN Graphs for Fast Approximate Retrieval over Learned Sparse Representations
- arxiv url: http://arxiv.org/abs/2408.04443v1
- Date: Thu, 08 Aug 2024 13:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 18:21:48.217839
- Title: Pairing Clustered Inverted Indexes with kNN Graphs for Fast Approximate Retrieval over Learned Sparse Representations
- Title(参考訳): 学習スパース表現上の高速近似検索のためのkNNグラフを用いたクラスタ化逆インデックスのペアリング
- Authors: Sebastian Bruch, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini,
- Abstract要約: 本稿では,高精度な近似探索アルゴリズムである地震探査について述べる。
地震は、最先端の逆インデックスベースのソリューションよりも1~2桁高速である。
まず、任意にではなく、重要な順にブロックを横断する。
我々の拡張は、地震波と呼ばれ、ほぼ正確に、地震の2.2倍の速さで到達することができる。
- 参考スコア(独自算出の注目度): 8.796275989527054
- License:
- Abstract: Learned sparse representations form an effective and interpretable class of embeddings for text retrieval. While exact top-k retrieval over such embeddings faces efficiency challenges, a recent algorithm called Seismic has enabled remarkably fast, highly-accurate approximate retrieval. Seismic statically prunes inverted lists, organizes each list into geometrically-cohesive blocks, and augments each block with a summary vector. At query time, each inverted list associated with a query term is traversed one block at a time in an arbitrary order, with the inner product between the query and summaries determining if a block must be evaluated. When a block is deemed promising, its documents are fully evaluated with a forward index. Seismic is one to two orders of magnitude faster than state-of-the-art inverted index-based solutions and significantly outperforms the winning graph-based submissions to the BigANN 2023 Challenge. In this work, we speed up Seismic further by introducing two innovations to its query processing subroutine. First, we traverse blocks in order of importance, rather than arbitrarily. Second, we take the list of documents retrieved by Seismic and expand it to include the neighbors of each document using an offline k-regular nearest neighbor graph; the expanded list is then ranked to produce the final top-k set. Experiments on two public datasets show that our extension, named SeismicWave, can reach almost-exact accuracy levels and is up to 2.2x faster than Seismic.
- Abstract(参考訳): 学習されたスパース表現は、テキスト検索のための効果的な、解釈可能な埋め込みのクラスを形成する。
このような埋め込みによる正確なトップk検索は効率上の課題に直面しているが、最近の地震法と呼ばれるアルゴリズムは驚くほど高速で高精度な近似的検索を可能にしている。
スタティックなプルーネは逆リストとなり、各リストを幾何学的に結合したブロックに整理し、各ブロックを要約ベクトルで拡張する。
クエリ時に、クエリ項に関連付けられた各逆リストを任意の順序で1ブロックずつトラバースし、クエリと要約の間の内部積がブロックの評価を判断する。
ブロックが有望であると判断された場合、そのドキュメントはフォワードインデックスで完全に評価される。
地震は最先端の逆インデックスベースのソリューションよりも1~2桁高速で、BigANN 2023 Challengeの勝利グラフベースの提案よりも大幅に優れています。
本研究では,その問合せ処理サブルーチンに2つの革新を導入することで,地震波の高速化を図る。
まず、任意にではなく、重要な順にブロックを横切る。
第2に、地震によって検索された文書のリストを、オフラインのk正規近傍グラフを用いて各文書の隣人を含むように拡張し、拡張されたリストを、最終トップk集合を生成するためにランク付けする。
2つの公開データセットの実験により、我々の拡張は、地震波と呼ばれ、ほぼ正確に、地震の2.2倍の速さで到達できることが示されている。
関連論文リスト
- Top-Down Partitioning for Efficient List-Wise Ranking [24.600506147325717]
本稿では、ランクを深さkに分割し、文書をトップダウンで処理する新しいアルゴリズムを提案する。
このアルゴリズムは、文書から任意の深さまでを同時に比較できるピボット要素を用いることにより、本質的に並列化可能である。
論文 参考訳(メタデータ) (2024-05-23T14:00:26Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval [25.402767809863946]
逆ファイル構造は高密度検索を高速化する一般的な手法である。
本研究では,Hybrid Inverted Index (HI$2$)を提案する。
論文 参考訳(メタデータ) (2022-10-11T15:12:41Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - An Efficient Coarse-to-Fine Facet-Aware Unsupervised Summarization
Framework based on Semantic Blocks [27.895044398724664]
教師なし長文要約のためのC2F-FAR(Coarse-to-Fine Facet-Aware Ranking)フレームワークを提案する。
粗いレベルでは、文書をファセット対応のセマンティックブロックに分割し、無意味なブロックをフィルタリングする新しいセグメントアルゴリズムを提案する。
詳細な段階において,各ブロックで有能な文を選択し,選択した文から最終要約を抽出する。
論文 参考訳(メタデータ) (2022-08-17T12:18:36Z) - Reinforcement Learning Based Query Vertex Ordering Model for Subgraph
Matching [58.39970828272366]
グラフマッチングアルゴリズムは、クエリグラフの埋め込みをデータグラフGに列挙する。
マッチング順序は、これらのバックトラックに基づくサブグラフマッチングアルゴリズムの時間効率において重要な役割を果たす。
本稿では,Reinforcement Learning (RL) と Graph Neural Networks (GNN) 技術を適用して,グラフマッチングアルゴリズムの高品質なマッチング順序を生成する。
論文 参考訳(メタデータ) (2022-01-25T00:10:03Z) - Temporal Query Networks for Fine-grained Video Understanding [88.9877174286279]
我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。
本手法は,細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークを広範囲に評価し,rgb機能のみを用いて最先端の動作分類を克服した。
論文 参考訳(メタデータ) (2021-04-19T17:58:48Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。