論文の概要: Efficient Multivector Retrieval with Token-Aware Clustering and Hierarchical Indexing
- arxiv url: http://arxiv.org/abs/2604.28142v1
- Date: Thu, 30 Apr 2026 17:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.225024
- Title: Efficient Multivector Retrieval with Token-Aware Clustering and Hierarchical Indexing
- Title(参考訳): Token-Aware Clusteringと階層インデックスを用いた効率的なマルチベクタ検索
- Authors: Silvio Martinico, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini,
- Abstract要約: TACHIOMは、トークンレベルの構造を利用してクラスタリングと検索の両方を著しく高速化するマルチベクタ検索システムである。
センチロイド割り当て時のトークンの分布を考慮し、TACHIOMは数百万のセンチロイドに容易にスケールでき、センチロイドのみを用いた高精度な文書スコアリングを可能にする。
- 参考スコア(独自算出の注目度): 11.098422338598454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multivector retrieval models achieve state-of-the-art effectiveness through fine-grained token-level representations, but their deployment incurs substantial computational and memory costs. Current solutions, based on the well-known k-means clustering algorithm, group similar vectors together to enable both effective compression and efficient retrieval. However, standard k-means scales poorly with the number of clusters and dataset size, and favours frequent tokens during training while underrepresenting rare, discriminative ones. In this work, we introduce TACHIOM, a multivector retrieval system that exploits token-level structure to significantly accelerate both clustering and retrieval. By accounting for tokens' distribution during centroid allocation, TACHIOM easily scales to millions of centroids, enabling highly accurate document scoring using only centroids, avoiding expensive token-level computation. TACHIOM combines a graph-based index over centroids with an optimized Product Quantization layout for efficient final scoring. Experiments on MS-MARCOv1 and LoTTE show that TACHIOM achieves up to $247\times$ faster clustering than k-means and up to $9.8\times$ retrieval speedup over state-of-the-art systems while maintaining comparable or superior effectiveness.
- Abstract(参考訳): マルチベクター検索モデルは、細かいトークンレベルの表現によって最先端の有効性を達成するが、その展開は相当な計算とメモリコストを発生させる。
現在の解は、よく知られたk平均クラスタリングアルゴリズムに基づいて、同様のベクトルをグループ化し、効率的な圧縮と効率的な検索を可能にする。
しかし、標準のk平均はクラスタ数やデータセットサイズに乏しく、希少で差別的でないトークンを表現しながらトレーニング中に頻繁にトークンを好んでいる。
本研究では,トークンレベルの構造を利用してクラスタリングと検索の両方を高速化するマルチベクタ検索システムであるTACHIOMを紹介する。
センチロイド割り当て時のトークンの分布を考慮し、TACHIOMは数百万のセンチロイドに容易にスケールでき、セントロイドのみを使用して高精度な文書スコアリングを可能にし、高価なトークンレベルの計算を避けることができる。
TACHIOMは、セントロイド上のグラフベースのインデックスと最適化された製品量子化レイアウトを組み合わせて、効率的な最終スコア付けを行う。
MS-MARCOv1 と LoTTE の実験では、TACHIOM は k-means よりも高速なクラスタリングで最大247ドル、最先端システムの検索スピードアップで最大9.8ドルを達成している。
関連論文リスト
- CAS Condensed and Accelerated Silhouette: An Efficient Method for Determining the Optimal K in K-Means Clustering [0.0]
本稿では,クラスタリングにおけるkの最適値を選択するための戦略を提案する。
複雑なデータ環境におけるクラスタリング精度と計算効率のバランスを達成することに焦点を当てている。
提案手法は,高次元データセット上での実行時間を最大99%高速化する。
論文 参考訳(メタデータ) (2025-07-11T05:03:16Z) - Rock the KASBA: Blazingly Fast and Accurate Time Series Clustering [0.6215404942415159]
我々は、新しい時系列クラスタリング(TSCL)アルゴリズム、$k$-means (K)Accelerated (A) subgradient (S) Barycentre (B) Average (A)を提案する。
KASBAは、クラスタリングのすべての段階で、Move-Split-Merge (MSM) の弾性距離を使用し、ランダム化下降降下を適用してバリセント・セントロイドを見つけ、クラスタリングの各段階をリンクして収束を加速し、MSM距離の計量特性を利用して距離計算を行う、$k$-meansクラスタリングアルゴリズムである。
汎用的でスケーラブルなクラスタリングである。
論文 参考訳(メタデータ) (2024-11-26T19:26:17Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - A High-Performance External Validity Index for Clustering with a Large Number of Clusters [0.0]
本稿では,Stable Matching Based Pairing (SMBP)アルゴリズムを提案する。
多数のクラスタを持つ大規模データセットにおけるクラスタリング評価のための高性能な外部妥当性指標である。
これは、多数のクラスタを持つバランスのとれた、バランスの取れていない、大規模なデータセットに特に有効である。
論文 参考訳(メタデータ) (2024-09-22T14:08:57Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - K-Splits: Improved K-Means Clustering Algorithm to Automatically Detect
the Number of Clusters [0.12313056815753944]
本稿では,k-meansに基づく改良された階層型アルゴリズムであるk-splitsを紹介する。
提案手法の主な利点は,精度と速度である。
論文 参考訳(メタデータ) (2021-10-09T23:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。