No More K-means:Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval
Abstractの概要
本論文は、クラスタリングに基づく密なインデックス作成を、スパースオートエンコーダによるスパースコーディングに置き換えるマルチベクトル検索フレームワーク「Single-stage Sparse Retrieval (SSR)」を提案している。トークン埋め込みを低次元の密なベクトルに圧縮する代わりに、高次元かつ非常に疎な表現にマッピングし、ニューロンレベルの転置インデックスとスパースな遅延インタラクションスコアリングによる検索を可能にする。この手法には、トークンのみ、およびトークンと[CLS]を組み合わせたバリアントに加え、粗密プルーニングを用いてレイテンシを削減する高速化パイプラインSSR++が含まれる。MS MARCO、BEIR、LoTTE、長文ドキュメントランキング、LLMベースのバックボーンを用いた実験により、検索の有効性とシステム効率の両方を評価している。
新規性
主な新規性は、マルチベクトル検索において、K-meansクラスタリングを用いた密な近似から、転置インデックスを使用する単一段階のスパースコーディングへ移行したことである。さらに、スパースオートエンコーディングと検索指向の対照的学習目標を組み合わせることで、スパース表現がランキングにおける再構成能力と識別能力の両方を維持できるように構築されている。
成果
統制されたBEIRの評価において、SSR-CLSは平均nDCG@10で53.4という最高値を達成し、Splade-v3 (51.2)やPLAID (49.3)を上回った。一方でSSR-tokは検索レイテンシ17.5ミリ秒を達成しつつ、平均的な有効性において比較対象のベースラインを上回っている。インデックス作成パイプラインはColBERTv2よりも15倍以上高速であると報告されており、SSRは13のBEIRデータセット中9つ、LoTTEのロングテール検索、長文ランキング、Llama-embed-8Bバックボーンなど、様々な設定にわたって強力な堅牢性を示している。
論文の注目点
- SSRは、マルチベクトル検索におけるK-meansベースのクラスタリングを、スパースオートエンコーダによる投影とニューロンレベルの転置インデックスに置き換える。
- 本手法は有効性と効率のトレードオフを改善し、クラスタリングベースの密なMVRシステムと比較して、20ミリ秒未満の検索と15倍以上のインデックス作成の高速化を実現している。
- 実証的研究は標準ベンチマーク、ロングテールや長文ドキュメント設定、凍結されたLLMバックボーンを広くカバーしており、このアプローチが限定的な設定を超えて汎化することを示唆している。