論文の概要: GPU-Resident Inverted File Index for Streaming Vector Databases
- arxiv url: http://arxiv.org/abs/2601.11808v1
- Date: Fri, 16 Jan 2026 22:20:52 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-01-21 12:32:57.238368
- Title: GPU-Resident Inverted File Index for Streaming Vector Databases
- Title(参考訳): ストリームベクトルデータベースのためのGPU-Resident Inverted File Index
- Authors: Dongfang Zhao,
- Abstract要約: SIVF(Streaming Inverted File)は,高速なデータ取り込みと削除機能を備えたベクトルデータベースを実現するために設計された,GPUネイティブなアーキテクチャである。
SIVFは静的メモリレイアウトをスラブベースのアロケーションシステムと有効ビットマップに置き換え、VRAMに直接ロックフリーおよびインプレース変更を可能にする。
SIFT1MおよびGIST1Mデータセット上での業界標準GPU IVF実装に対するSIVFの評価を行った。
- 参考スコア(独自算出の注目度): 0.9179857807576733
- License:
- Abstract: Vector search has emerged as the computational backbone of modern AI infrastructure, powering critical systems ranging from Vector Databases to Retrieval-Augmented Generation (RAG). While the GPU-accelerated Inverted File (IVF) index acts as one of the most widely used techniques for these large-scale workloads due to its memory efficiency, its traditional architecture remains fundamentally static. Existing designs rely on rigid and contiguous memory layouts that lack native support for in-place mutation, creating a severe bottleneck for streaming scenarios. In applications requiring real-time knowledge updates, such as live recommendation engines or dynamic RAG systems, maintaining index freshness necessitates expensive CPU-GPU roundtrips that cause system latency to spike from milliseconds to seconds. In this paper, we propose SIVF (Streaming Inverted File), a new GPU-native architecture designed to empower vector databases with high-velocity data ingestion and deletion capabilities. SIVF replaces the static memory layout with a slab-based allocation system and a validity bitmap, enabling lock-free and in-place mutation directly in VRAM. We further introduce a GPU-resident address translation table (ATT) to resolve the overhead of locating vectors, providing $O(1)$ access to physical storage slots. We evaluate SIVF against the industry-standard GPU IVF implementation on the SIFT1M and GIST1M datasets. Microbenchmarks demonstrate that SIVF reduces deletion latency by up to $13,300\times$ (from 11.8 seconds to 0.89 ms on GIST1M) and improves ingestion throughput by $36\times$ to $105\times$. In end-to-end sliding window scenarios, SIVF eliminates system freezes and achieves a $161\times$ to $266\times$ speedup with single-digit millisecond latency. Notably, this performance incurs negligible storage penalty, maintaining less than 0.8\% memory overhead compared to static indices.
- Abstract(参考訳): ベクトル検索は、Vector DatabasesからRetrieval-Augmented Generation (RAG)までの重要なシステムを動かす、現代のAIインフラストラクチャの計算バックボーンとして登場した。
GPUアクセラレーションされたInverted File(IVF)インデックスは、メモリ効率のためにこれらの大規模ワークロードで最も広く使用されるテクニックの1つだが、従来のアーキテクチャは基本的に静的である。
既存の設計は厳格で連続的なメモリレイアウトに依存しており、インプレース変異をネイティブにサポートしていないため、ストリーミングシナリオに深刻なボトルネックが生じる。
ライブレコメンデーションエンジンや動的RAGシステムなどのリアルタイム知識更新を必要とするアプリケーションでは、インデックスの鮮度を維持するには高価なCPU-GPUラウンドトリップが必要であるため、システムのレイテンシはミリ秒から秒に急上昇する。
本稿では,高速なデータ取り込みと削除機能を備えたベクトルデータベースを実現するために設計された,GPUネイティブな新しいアーキテクチャであるSIVF(Streaming Inverted File)を提案する。
SIVFは静的メモリレイアウトをスラブベースのアロケーションシステムと有効ビットマップに置き換え、VRAMに直接ロックフリーおよびインプレース変更を可能にする。
さらに、ベクトルの位置決めのオーバーヘッドを解決するために、GPU-resident address translation table (ATT)を導入し、物理ストレージスロットへの$O(1)$アクセスを提供する。
SIFT1MおよびGIST1Mデータセット上での業界標準GPU IVF実装に対するSIVFの評価を行った。
Microbenchmarksによると、SIVFは削除遅延を最大13,300\times$(GIST1Mで11.8秒から0.89ms)削減し、摂取スループットを36\times$から105\times$に改善している。
エンドツーエンドのスライディングウィンドウのシナリオでは、SIVFはシステム凍結を排除し、シングル桁ミリ秒のレイテンシで161\times$から266\times$スピードアップを達成する。
このパフォーマンスは無視可能なストレージペナルティを発生させ、静的インデックスと比較して 0.8 % 未満のメモリオーバーヘッドを維持する。
関連論文リスト
- FaTRQ: Tiered Residual Quantization for LLM Vector Search in Far-Memory-Aware ANNS Systems [16.221654013698963]
FaTRQは、ストレージから完全なベクトルを取り出す必要をなくす、メモリを意識した改良システムである。
カスタムアクセラレータはCXL Type-2デバイスにデプロイされ、ローカルで低遅延リファインメントを実行する。
FaTRQは、ストレージ効率を2.4$times$で改善し、スループットをSOTA GPU ANNSシステムよりも最大9$$で改善する。
論文 参考訳(メタデータ) (2026-01-15T01:59:29Z) - Bare-Metal Tensor Virtualization: Overcoming the Memory Wall in Edge-AI Inference on ARM64 [0.5729426778193398]
ARM64マイクロアーキテクチャ(Apple Silicon)向けに最適化されたソフトウェアで実装された"仮想コア"アーキテクチャ
DMA(Software-Defined Direct Memory Access)は、100%キャッシュラインの利用をウェイトで保証しますが、ゼロコピーローダは遅延を排除します。
110M秒モデルによる実験結果から,M2ハードウェア上では, >60トークン/秒の安定したスループットが示された。
論文 参考訳(メタデータ) (2026-01-06T15:00:40Z) - AIRES: Accelerating Out-of-Core GCNs via Algorithm-System Co-Design [6.554916179445241]
グラフ畳み込みネットワーク(GCN)は、バイオメディカルタンパク質とタンパク質の相互作用(PPI)から大規模レコメンデーションシステムまで、様々な科学的応用において基本的なものである。
GCNのグラフ構造をモデル化するための重要な要素はスパース一般行列行列乗法(SpGEMM)である。
SpGEMMは、リソースに制約のあるシステムにおいて、限られたGPUメモリスペースのために、アウトオブコアで実行されることが多い。
本稿では,GCNのアウトオブコア SpGEMM 計算を高速化するアルゴリズム-システム共設計ソリューション AIRES を提案する。
論文 参考訳(メタデータ) (2025-07-02T00:35:43Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - GPU-Accelerated Primal Learning for Extremely Fast Large-Scale
Classification [10.66048003460524]
ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。
我々は、GPU最適化の法則を用いて、異なる損失と特徴表現に対するTRONトレーニング時間を劇的に短縮できることを示した。
論文 参考訳(メタデータ) (2020-08-08T03:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。