論文の概要: Forward Index Compression for Learned Sparse Retrieval
- arxiv url: http://arxiv.org/abs/2602.05445v1
- Date: Thu, 05 Feb 2026 08:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.847649
- Title: Forward Index Compression for Learned Sparse Retrieval
- Title(参考訳): 学習したスパース検索のためのフォワードインデックス圧縮
- Authors: Sebastian Bruch, Martino Fontana, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini,
- Abstract要約: 我々は、全てのアルゴリズム的なフレーバーに共通するデータ構造のサイズに焦点を合わせ、インデックス全体のサイズであるフォワードインデックスのかなりの部分を構成する。
特に,検索品質や内部積計算のレイテンシを損なうことなく,フォワードインデックスのストレージフットプリントを削減する圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 15.629655228398567
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text retrieval using learned sparse representations of queries and documents has, over the years, evolved into a highly effective approach to search. It is thanks to recent advances in approximate nearest neighbor search-with the emergence of highly efficient algorithms such as the inverted index-based Seismic and the graph-based Hnsw-that retrieval with sparse representations became viable in practice. In this work, we scrutinize the efficiency of sparse retrieval algorithms and focus particularly on the size of a data structure that is common to all algorithmic flavors and that constitutes a substantial fraction of the overall index size: the forward index. In particular, we seek compression techniques to reduce the storage footprint of the forward index without compromising search quality or inner product computation latency. In our examination with various integer compression techniques, we report that StreamVByte achieves the best trade-off between memory footprint, retrieval accuracy, and latency. We then improve StreamVByte by introducing DotVByte, a new algorithm tailored to inner product computation. Experiments on MsMarco show that our improvements lead to significant space savings while maintaining retrieval efficiency.
- Abstract(参考訳): クエリとドキュメントのスパース表現を学習したテキスト検索は、長年にわたって、検索に対する非常に効果的なアプローチへと進化してきた。
これは、逆インデックスベース地震探査やグラフベースHnsw- That Search with sparse representations などの高効率なアルゴリズムが実際に実現されたことにより、近隣の探索に近づいた最近の進歩によるものである。
本研究では、スパース検索アルゴリズムの効率を精査し、特に全てのアルゴリズムのフレーバーに共通するデータ構造のサイズに焦点をあてる。
特に,検索品質や内部積計算のレイテンシを損なうことなく,フォワードインデックスのストレージフットプリントを削減する圧縮手法を提案する。
本稿では, 様々な整数圧縮手法を用いて, StreamVByte がメモリフットプリント, 検索精度, レイテンシの最良のトレードオフを実現することを報告する。
次に、内部製品計算に適した新しいアルゴリズムであるDotVByteを導入し、StreamVByteを改善した。
MsMarcoの実験により, 回収効率を維持しながら, 大幅な省スペース化が図られた。
関連論文リスト
- Investigating the Scalability of Approximate Sparse Retrieval Algorithms to Massive Datasets [8.1990111961557]
大規模データセット上での最先端検索アルゴリズムの挙動について検討する。
我々は,最近提案した地震探査と高密度検索に適応したグラフベースソリューションを比較し,比較した。
我々は,MsMarco-v2から138万パスのSplade埋め込みを広範囲に評価し,インデックス作成時間その他の効率および有効性について報告する。
論文 参考訳(メタデータ) (2025-01-20T17:59:21Z) - Efficient Long Context Language Model Retrieval with Compression [57.09163579304332]
情報検索のための新しいパラダイムとしてLong Context Language Models (LCLM)が登場した。
本稿では,LCLM検索に適した新しい圧縮手法を提案する。
また,CoLoRはテキスト内サイズを1.91倍に圧縮し,検索性能を6%向上することを示した。
論文 参考訳(メタデータ) (2024-12-24T07:30:55Z) - Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。
本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T12:46:23Z) - Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。
SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。