論文の概要: GPU-Native Approximate Nearest Neighbor Search with IVF-RaBitQ: Fast Index Build and Search
- arxiv url: http://arxiv.org/abs/2602.23999v1
- Date: Fri, 27 Feb 2026 13:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.435797
- Title: GPU-Native Approximate Nearest Neighbor Search with IVF-RaBitQ: Fast Index Build and Search
- Title(参考訳): GPU-Native Approximate Nearest Neighbor Search with IVF-RaBitQ: Fast Index Build and Search
- Authors: Jifan Shi, Jianyang Gao, James Xia, Tamás Béla Fehér, Cheng Long,
- Abstract要約: IVF-RaBitQは、クラスタベースのIVFとRaBitQ量子化を統合したGPUネイティブなANNSソリューションで、効率的なGPUインデックスの構築/検索パイプラインである。
IVF-RaBitQは、リコール、スループット、インデックスビルド時間、ストレージフットプリントにおいて、強力なパフォーマンスフロンティアを提供する。
- 参考スコア(独自算出の注目度): 6.459073253087106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approximate nearest neighbor search (ANNS) on GPUs is gaining increasing popularity for modern retrieval and recommendation workloads that operate over massive high-dimensional vectors. Graph-based indexes deliver high recall and throughput but incur heavy build-time and storage costs. In contrast, cluster-based methods build and scale efficiently yet often need many probes for high recall, straining memory bandwidth and compute. Aiming to simultaneously achieve fast index build, high-throughput search, high recall, and low storage requirement for GPUs, we present IVF-RaBitQ (GPU), a GPU-native ANNS solution that integrates the cluster-based method IVF with RaBitQ quantization into an efficient GPU index build/search pipeline. Specifically, for index build, we develop a scalable GPU-native RaBitQ quantization method that enables fast and accurate low-bit encoding at scale. For search, we develop GPU-native distance computation schemes for RaBitQ codes and a fused search kernel to achieve high throughput with high recall. With IVF-RaBitQ implemented and integrated into the NVIDIA cuVS Library, experiments on cuVS Bench across multiple datasets show that IVF-RaBitQ offers a strong performance frontier in recall, throughput, index build time, and storage footprint. For Recall approximately equal to 0.95, IVF-RaBitQ achieves 2.2x higher QPS than the state-of-the-art graph-based method CAGRA, while also constructing indices 7.7x faster on average. Compared to the cluster-based method IVF-PQ, IVF-RaBitQ delivers on average over 2.7x higher throughput while avoiding accessing the raw vectors for reranking.
- Abstract(参考訳): GPU上の近似近接探索(ANNS)は、大規模な高次元ベクトルを操作する現代的な検索とレコメンデーションワークロードで人気が高まっている。
グラフベースのインデックスは、高いリコールとスループットを提供するが、ビルド時間とストレージコストが重い。
対照的に、クラスタベースのメソッドは効率的に構築およびスケールするが、高いリコール、ストレッチメモリ帯域幅、計算のために多くのプローブを必要とすることが多い。
高速インデックス構築,高スループット検索,高リコール,低ストレージ要件をGPUで同時に実現することを目的として,GPUネイティブなANNSソリューションであるIVF-RaBitQを,クラスタベースの手法であるIVFとRaBitQ量子化を統合し,効率的なGPUインデックス構築/検索パイプラインを構築する。
具体的には,高速かつ高精度な低ビット符号化を実現する,スケーラブルなGPUネイティブなRaBitQ量子化手法を開発した。
探索のために,RaBitQ符号と融合した検索カーネルのGPUネイティブ距離計算方式を開発し,高いリコールで高いスループットを実現する。
IVF-RaBitQがNVIDIA cuVSライブラリに実装され、統合されたことにより、複数のデータセットにわたるcuVS Benchの実験により、IVF-RaBitQはリコール、スループット、インデックスビルド時間、ストレージフットプリントにおいて強力なパフォーマンスフロンティアを提供することが示された。
Recall が 0.95 にほぼ等しい場合、IVF-RaBitQ は最先端のグラフベースの CAGRA よりも2.2倍高い QPS を達成する。
クラスタベースのIVF-PQと比較すると、IVF-RaBitQは平均2.7倍以上のスループットを実現し、再ランク付けのための生ベクトルへのアクセスを回避している。
関連論文リスト
- GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions [54.570944939061555]
本稿では,GPU加速グラフに基づくベクトル探索アルゴリズムについて包括的に研究する。
我々は、GPU最適化戦略の詳細な分類を確立し、アルゴリズムタスクとハードウェア実行ユニット間のマッピングを明確にする。
我々の発見は、スケーラブルで堅牢なGPUベースの近接検索システムを設計するための明確なガイドラインを提供する。
論文 参考訳(メタデータ) (2026-02-10T16:18:04Z) - GPU-Accelerated ANNS: Quantized for Speed, Built for Change [1.8419317899207142]
現在の近似近傍探索(ANNS)システムは3つの重要な制限に直面している。
現在のシステムでは、コストのかかるランダムなメモリアクセスを導入することなく、データ移動を減らす効率的な量子化技術が欠如している。
本稿では、高いクエリスループットとアップビリティを備えたGPUアクセラレーションANNSシステムであるJasperを紹介する。
論文 参考訳(メタデータ) (2026-01-11T19:51:54Z) - CTkvr: KV Cache Retrieval for Long-Context LLMs via Centroid then Token Indexing [28.184704036272787]
長いコンテキストは、大きな言語モデルにおいて推論効率に重大な課題をもたらす。
我々は,新しい遠心分離型KV検索方式であるCTKVRを提案する。
CTKVRは、1%未満の精度で、複数のベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-17T15:56:32Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - TorchSparse++: Efficient Training and Inference Framework for Sparse
Convolution on GPUs [20.4238781638402]
スパース畳み込みは、AR/VRにおけるポイントクラウド処理、自動運転、レコメンデーションシステムにおけるグラフ理解など、新興ワークロードにおいて重要な役割を果たす。
既存のGPUライブラリはスパース畳み込みのための2つのデータフロー型を提供する。
TorchSparse++は、両方の世界のベストを達成するための新しいGPUライブラリです。
論文 参考訳(メタデータ) (2023-10-25T21:02:38Z) - High Performance Computing Applied to Logistic Regression: A CPU and GPU
Implementation Comparison [0.0]
汎用GPUによるロジスティック回帰(LR)の並列バージョンを提案する。
我々の実装は、X. Zouらによって提案された並列なグラディエントDescent Logistic Regressionアルゴリズムの直接変換である。
本手法は,画像認識,スパム検出,不正検出などのリアルタイム予測に特に有用である。
論文 参考訳(メタデータ) (2023-08-19T14:49:37Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Similarity search in the blink of an eye with compressed indices [3.39271933237479]
グラフベースのインデックスは現在、数十億の類似性検索において、最高のパフォーマンス技術である。
より高速でより小さなグラフベースのインデックスを作成するための新しい手法とシステムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:10:39Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - GPU-Accelerated Primal Learning for Extremely Fast Large-Scale
Classification [10.66048003460524]
ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。
我々は、GPU最適化の法則を用いて、異なる損失と特徴表現に対するTRONトレーニング時間を劇的に短縮できることを示した。
論文 参考訳(メタデータ) (2020-08-08T03:40:27Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。