論文の概要: ColBERTSaR: Sparsified ColBERT Index via Product Quantization
- arxiv url: http://arxiv.org/abs/2606.05568v1
- Date: Thu, 04 Jun 2026 01:28:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.474151
- Title: ColBERTSaR: Sparsified ColBERT Index via Product Quantization
- Title(参考訳): ColBERTSaR:製品量子化によるColBERT指数の分散化
- Authors: Eugene Yang, Andrew Yates, Dawn Lawrie, James Mayfield, Saron Samuel, Rohan Jha,
- Abstract要約: ColBERTは効果的なニューラル検索アーキテクチャであるが、候補セット検索をサポートするために重いインデックス構造を必要とする。
我々は、ColBERTインデックスを真逆インデックスに変換する埋め込み量子化手法を提案する。
- 参考スコア(独自算出の注目度): 23.59576017606267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While ColBERT is an effective neural retrieval architecture, it requires a heavy index structure to support candidate set retrieval based on approximated token embeddings, gathering and decompressing document token embeddings, and applying the MaxSim operation. Indexes in PLAID and similar ColBERT implementations require five to ten times the disk storage of the original raw text, which limits their scalability. Furthermore, prior work has identified that the gathering and decompression stages are the primary inefficiencies at query time. Limiting the number of document tokens that must be gathered by thresholding and score approximation does not eliminate the need for the entire index to support ad hoc queries. In this work, we propose an embedding quantization approach that turns a ColBERT index into a true inverted index. We show that, theoretically, ColBERT with embedding quantization is equivalent to learned-sparse retrieval except for the scoring mechanism. Empirically, we demonstrate that our index is 50-70% smaller than a one-bit PLAID index while retaining retrieval effectiveness.
- Abstract(参考訳): ColBERTは効果的なニューラルネットワークアーキテクチャであるが、近似トークンの埋め込み、文書トークンの埋め込みの収集と圧縮、MaxSim操作の適用に基づく候補セットの検索をサポートするために、重いインデックス構造を必要とする。
PLAIDおよび類似のColBERT実装のインデックスは、元の原文のディスクストレージの5倍から10倍のスケーラビリティを必要とする。
さらに、事前の作業では、クエリ時の収集と圧縮の段階が主要な非効率性であることが明らかになっている。
しきい値とスコアの近似によって収集しなければならないドキュメントトークンの数を制限することは、アドホッククエリをサポートするためのインデックス全体の必要性を排除するものではない。
本研究では,コルバート指数を真逆指数に変換する埋め込み量子化手法を提案する。
理論的には、埋め込み量子化を持つColBERTは、スコアリング機構以外の学習スパース検索と等価であることを示す。
実験により,本指数は1ビットPLAID指標よりも50-70%小さく,検索効率は高いことがわかった。
関連論文リスト
- HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention [62.79085204939384]
HISA (Hierarchical Indexed Sparse Attention) は、平らなトークンスキャンから2段階の階層的な手順に検索パスを書き換える。
カーネルレベルのベンチマークでは、HISAは64Kコンテキストでの高速化を実現している。
論文 参考訳(メタデータ) (2026-03-30T13:59:51Z) - Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。
インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。
AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文 参考訳(メタデータ) (2026-02-24T18:57:33Z) - Forward Index Compression for Learned Sparse Retrieval [15.629655228398567]
我々は、全てのアルゴリズム的なフレーバーに共通するデータ構造のサイズに焦点を合わせ、インデックス全体のサイズであるフォワードインデックスのかなりの部分を構成する。
特に,検索品質や内部積計算のレイテンシを損なうことなく,フォワードインデックスのストレージフットプリントを削減する圧縮手法を提案する。
論文 参考訳(メタデータ) (2026-02-05T08:35:17Z) - Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-Encoders [77.84801537608651]
クエリ-イムペアを共同で符号化することで類似性を計算するクロスエンコーダ(CE)モデルは、クエリ-イム関連性を推定する埋め込みベースモデル(デュアルエンコーダ)よりも優れている。
本稿では,潜時クエリとアイテム埋め込みを効率的に計算してCEスコアを近似し,CE類似度を近似したk-NN探索を行うスパース行列分解法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:34Z) - Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。
SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - Faster Learned Sparse Retrieval with Block-Max Pruning [11.080810272211906]
本稿では,学習されたスパース検索環境に出現するインデックスに適した,革新的な動的プルーニング戦略であるBlock-Max Pruning(BMP)を紹介する。
BMPは既存の動的プルーニング戦略を大幅に上回り、安全な検索コンテキストにおいて非並列効率を提供する。
論文 参考訳(メタデータ) (2024-05-02T09:26:30Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。