論文の概要: Jasper: ANNS Quantized for Speed, Built for Change on GPU
- arxiv url: http://arxiv.org/abs/2601.07048v1
- Date: Sun, 11 Jan 2026 19:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.134567
- Title: Jasper: ANNS Quantized for Speed, Built for Change on GPU
- Title(参考訳): Jasper: ANNSは高速で量子化され、GPUの変更のために構築される
- Authors: Hunter McCoy, Zikun Wang, Prashant Pandey,
- Abstract要約: 現在の近似近傍探索(ANNS)システムは3つの重要な制限に直面している。
現在のシステムでは、コストのかかるランダムなメモリアクセスを導入することなく、データ移動を減らす効率的な量子化技術が欠如している。
本稿では、高いクエリスループットとアップビリティを備えたGPUアクセラレーションANNSシステムであるJasperを紹介する。
- 参考スコア(独自算出の注目度): 1.8419317899207142
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Approximate nearest neighbor search (ANNS) is a core problem in machine learning and information retrieval applications. GPUs offer a promising path to high-performance ANNS: they provide massive parallelism for distance computations, are readily available, and can co-locate with downstream applications. Despite these advantages, current GPU-accelerated ANNS systems face three key limitations. First, real-world applications operate on evolving datasets that require fast batch updates, yet most GPU indices must be rebuilt from scratch when new data arrives. Second, high-dimensional vectors strain memory bandwidth, but current GPU systems lack efficient quantization techniques that reduce data movement without introducing costly random memory accesses. Third, the data-dependent memory accesses inherent to greedy search make overlapping compute and memory difficult, leading to reduced performance. We present Jasper, a GPU-native ANNS system with both high query throughput and updatability. Jasper builds on the Vamana graph index and overcomes existing bottlenecks via three contributions: (1) a CUDA batch-parallel construction algorithm that enables lock-free streaming insertions, (2) a GPU-efficient implementation of RaBitQ quantization that reduces memory footprint up to 8x without the random access penalties, and (3) an optimized greedy search kernel that increases compute utilization, resulting in better latency hiding and higher throughput. Our evaluation across five datasets shows that Jasper achieves up to 1.93x higher query throughput than CAGRA and achieves up to 80% peak utilization as measured by the roofline model. Jasper's construction scales efficiently and constructs indices an average of 2.4x faster than CAGRA while providing updatability that CAGRA lacks. Compared to BANG, the previous fastest GPU Vamana implementation, Jasper delivers 19-131x faster queries.
- Abstract(参考訳): 近似近接探索(ANNS)は、機械学習および情報検索アプリケーションにおける中核的な問題である。
GPUは、高性能ANNSへの有望なパスを提供する。それらは、距離計算のための巨大な並列処理を提供し、容易に利用でき、下流アプリケーションと同時配置できる。
これらの利点にもかかわらず、現在のGPUアクセラレーションANNSシステムは3つの重要な制限に直面している。
まず、現実世界のアプリケーションは、高速なバッチ更新を必要とする進化中のデータセットで動作するが、新しいデータが到着した時に、ほとんどのGPUインデックスをスクラッチから再構築する必要がある。
第二に、高次元ベクトルはメモリ帯域を歪ませるが、現在のGPUシステムでは、コストのかかるランダムなメモリアクセスを導入することなく、データ移動を減らす効率的な量子化技術が欠如している。
第三に、グリージー検索固有のデータ依存メモリアクセスは、重なり合う計算とメモリを困難にし、性能を低下させる。
JasperはGPUネイティブなANNSシステムで、高いクエリスループットと高可用性を兼ね備えている。
JasperはVamanaグラフインデックス上に構築され,既存のボトルネックを克服するために,(1)ロックフリーなストリーミング挿入を可能にするCUDAバッチ並列構築アルゴリズム,(2)ランダムアクセスのペナルティを伴わずにメモリフットプリントを最大8倍に削減するRaBitQ量子化のGPU効率の高い実装,(3)計算効率を向上し,レイテンシの隠蔽とスループットの向上という3つのコントリビューションがある。
5つのデータセットで評価したところ,JasperはCAGRAよりも最大1.93倍高いクエリスループットを実現し,屋上モデルによる最大80%のピーク利用を実現している。
ジャスパーの構成は効率よくスケールし、CAGRAよりも平均2.4倍高速であり、CAGRAに欠けるアップアビリティを提供する。
以前の最速のGPU Vamana実装であるBANGと比較して、Jasperは19-131倍高速なクエリを提供する。
関連論文リスト
- Neo: Real-Time On-Device 3D Gaussian Splatting with Reuse-and-Update Sorting Acceleration [4.051115861577135]
3D Gaussian Splatting (3DGS)レンダリングをリソース制約のあるデバイス上でリアルタイムにレンダリングすることは、没入型拡張現実(AR/VR)体験を実現する上で不可欠である。
既存のソリューションは、特に高解像度レンダリングにおいて、高いフレームレートを達成するのに苦労している。
本稿では,ガウス順序の時間的冗長性を利用した再利用・更新ソートアルゴリズムであるNeoを提案する。
論文 参考訳(メタデータ) (2025-11-17T03:37:13Z) - FastGL: A GPU-Efficient Framework for Accelerating Sampling-Based GNN Training at Large Scale [29.272368697268433]
グラフニューラルネットワーク(GNN)は、非ユークリッドグラフデータに対して大きな優位性を示している。
我々は,大規模なGNNのサンプリングベーストレーニングを高速化するGPU効率のフレームワークであるFastGLを提案する。
FastGLは、最先端フレームワークであるPyG、DGL、GNNLabに対して平均11.8x、2.2x、1.5xのスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-09-23T11:45:47Z) - CAGRA: Highly Parallel Graph Construction and Approximate Nearest Neighbor Search for GPUs [4.55224304015001]
本稿では,並列計算ハードウェアを用いた近接グラフと探索アルゴリズムを提案する。
現代のハードウェアの高性能機能を活用することで,本手法は顕著な効率向上を実現している。
90%から95%のリコール範囲での大規模クエリスループットでは,HNSWよりも3377倍高速で,GPUのSOTA実装よりも3.88.8倍高速である。
論文 参考訳(メタデータ) (2023-08-29T09:10:53Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。
ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。
ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文 参考訳(メタデータ) (2021-10-01T16:25:40Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Towards Improving the Consistency, Efficiency, and Flexibility of
Differentiable Neural Architecture Search [84.4140192638394]
最も微分可能なニューラルアーキテクチャ探索法は、探索用のスーパーネットを構築し、そのサブグラフとしてターゲットネットを導出する。
本稿では,エンジンセルとトランジットセルからなるEnTranNASを紹介する。
また,検索処理の高速化を図るため,メモリや計算コストの削減も図っている。
論文 参考訳(メタデータ) (2021-01-27T12:16:47Z) - GPU-Accelerated Primal Learning for Extremely Fast Large-Scale
Classification [10.66048003460524]
ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。
我々は、GPU最適化の法則を用いて、異なる損失と特徴表現に対するTRONトレーニング時間を劇的に短縮できることを示した。
論文 参考訳(メタデータ) (2020-08-08T03:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。