論文の概要: A Super Fast K-means for Indexing Vector Embeddings
- arxiv url: http://arxiv.org/abs/2603.20009v1
- Date: Fri, 20 Mar 2026 14:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.191632
- Title: A Super Fast K-means for Indexing Vector Embeddings
- Title(参考訳): ベクトル埋め込みインデクシングのための超高速K平均
- Authors: Leonardo Kuffo, Sven Hepkema, Peter Boncz,
- Abstract要約: SuperKMeansは、高次元ベクトル埋め込みをクラスタリングするために設計されたk平均変種である。
SuperKMeansクラスタリングは、現在のCPU上でのFAISSやScikit-Learnよりも最大7倍高速である。
本稿では,検索タスクにおけるセントロイドの品質向上が止まった場合に,k-meansを早期に終了させるメカニズムである,リコールによる早期終了を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SuperKMeans: a k-means variant designed for clustering collections of high-dimensional vector embeddings. SuperKMeans' clustering is up to 7x faster than FAISS and Scikit-Learn on modern CPUs and up to 4x faster than cuVS on GPUs (Figure 1), while maintaining the quality of the resulting centroids for vector similarity search tasks. SuperKMeans acceleration comes from reducing data-access and compute overhead by reliably and efficiently pruning dimensions that are not needed to assign a vector to a centroid. Furthermore, we present Early Termination by Recall, a novel mechanism that early-terminates k-means when the quality of the centroids for retrieval tasks stops improving across iterations. In practice, this further reduces runtimes without compromising retrieval quality. We open-source our implementation at https://github.com/cwida/SuperKMeans
- Abstract(参考訳): 我々は、高次元ベクトル埋め込みの集合をクラスタリングするために設計されたk-means変種SuperKMeansを提案する。
SuperKMeansのクラスタリングは、最新のCPUではFAISSやScikit-Learnよりも最大7倍高速で、GPUではcuVSよりも最大4倍高速である(図1)。
SuperKMeansのアクセラレーションは、ベクターをセントロイドに割り当てる必要がない次元を確実にかつ効率的に刈り取ることによって、データアクセスと計算オーバーヘッドを削減することに由来する。
さらに,検索タスクにおけるセントロイドの品質が反復的に改善されなくなると,k-meansを早期に終了する機構であるEarly Termination by Recallを提案する。
実際には、検索品質を損なうことなくランタイムをさらに削減する。
私たちは実装をhttps://github.com/cwida/SuperKMeansでオープンソース化しました。
関連論文リスト
- Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。
インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。
AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文 参考訳(メタデータ) (2026-02-24T18:57:33Z) - Communication-Avoiding Linear Algebraic Kernel K-Means on GPUs [1.0017970035130424]
我々は大規模なKernel K-meansクラスタリングのための分散メモリ並列アルゴリズムスイートを提案する。
我々の手法は、ケルネル K-平均の計算コストが最も高い成分を通信効率の良い分散線形代数プリミティブにマッピングする。
我々の1.5Dアルゴリズムは、常に最高性能を達成し、K-meansは従来よりも1~2桁大きなデータにスケールできる。
論文 参考訳(メタデータ) (2026-01-23T19:25:10Z) - Rock the KASBA: Blazingly Fast and Accurate Time Series Clustering [0.6215404942415159]
我々は、新しい時系列クラスタリング(TSCL)アルゴリズム、$k$-means (K)Accelerated (A) subgradient (S) Barycentre (B) Average (A)を提案する。
KASBAは、クラスタリングのすべての段階で、Move-Split-Merge (MSM) の弾性距離を使用し、ランダム化下降降下を適用してバリセント・セントロイドを見つけ、クラスタリングの各段階をリンクして収束を加速し、MSM距離の計量特性を利用して距離計算を行う、$k$-meansクラスタリングアルゴリズムである。
汎用的でスケーラブルなクラスタリングである。
論文 参考訳(メタデータ) (2024-11-26T19:26:17Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - K-Splits: Improved K-Means Clustering Algorithm to Automatically Detect
the Number of Clusters [0.12313056815753944]
本稿では,k-meansに基づく改良された階層型アルゴリズムであるk-splitsを紹介する。
提案手法の主な利点は,精度と速度である。
論文 参考訳(メタデータ) (2021-10-09T23:02:57Z) - Exact Acceleration of K-Means++ and K-Means$\|$ [22.66983713481359]
K-Means++とK-Means$|$はK-meansの初期種を選択するデファクトツールとなっている。
我々は、K-Means++とK-Means$|$の最初のアクセラレーションを示すために、特殊三角不等式プルーニング戦略と動的優先度待ち行列を開発する。
論文 参考訳(メタデータ) (2021-05-06T20:22:55Z) - (k, l)-Medians Clustering of Trajectories Using Continuous Dynamic Time
Warping [57.316437798033974]
本研究では,トラジェクトリの集中型クラスタリングの問題について考察する。
我々はDTWの連続バージョンを距離測定として使用することを提案し、これをCDTW(Continuous dynamic time warping)と呼ぶ。
一連の軌道から中心を計算し、その後反復的に改善する実践的な方法を示す。
論文 参考訳(メタデータ) (2020-12-01T13:17:27Z) - SimpleMKKM: Simple Multiple Kernel K-means [49.500663154085586]
単純なマルチカーネルk-means(SimpleMKKM)と呼ばれる,単純で効果的なマルチカーネルクラスタリングアルゴリズムを提案する。
我々の基準は、カーネル係数とクラスタリング分割行列における難解な最小化最大化問題によって与えられる。
クラスタリング一般化誤差の観点から,SimpleMKKMの性能を理論的に解析する。
論文 参考訳(メタデータ) (2020-05-11T10:06:40Z) - Ball k-means [53.89505717006118]
Ball k-meansアルゴリズムは、ポイントセントロイド距離計算の削減に集中して、クラスタを記述するためにボールを使用する。
高速、余分なパラメータなし、単純設計のボールk平均アルゴリズムは、素早いk平均アルゴリズムを全面的に置き換える。
論文 参考訳(メタデータ) (2020-05-02T10:39:26Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。