論文の概要: B+ANN: A Fast Billion-Scale Disk-based Nearest-Neighbor Index
- arxiv url: http://arxiv.org/abs/2511.15557v1
- Date: Wed, 19 Nov 2025 15:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.880578
- Title: B+ANN: A Fast Billion-Scale Disk-based Nearest-Neighbor Index
- Title(参考訳): B+ANN:数十億ドル規模の円盤ベースのNext-Neighbor指数
- Authors: Selim Furkan Tekin, Rajesh Bordawekar,
- Abstract要約: 本稿では,HNSWアルゴリズムの問題点に対処するため,新しいディスクベースANNインデックスであるB+ANNを提案する。
入力データをセマンティックに類似したアイテムを含むブロックに分割し、B+ツリーの変種を構築し、インメモリとディスクの両方にブロックを格納する。
HNSWよりも品質(リコール値)と実行性能(秒/QPSあたりのクエリ)の両方を改善する。
- 参考スコア(独自算出の注目度): 3.4720326275852
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Storing and processing of embedding vectors by specialized Vector databases (VDBs) has become the linchpin in building modern AI pipelines. Most current VDBs employ variants of a graph-based ap- proximate nearest-neighbor (ANN) index algorithm, HNSW, to an- swer semantic queries over stored vectors. Inspite of its wide-spread use, the HNSW algorithm suffers from several issues: in-memory design and implementation, random memory accesses leading to degradation in cache behavior, limited acceleration scope due to fine-grained pairwise computations, and support of only semantic similarity queries. In this paper, we present a novel disk-based ANN index, B+ANN, to address these issues: it first partitions input data into blocks containing semantically similar items, then builds an B+ tree variant to store blocks both in-memory and on disks, and finally, enables hybrid edge- and block-based in-memory traversals. As demonstrated by our experimantal evaluation, the proposed B+ANN disk-based index improves both quality (Recall value), and execution performance (Queries per second/QPS) over HNSW, by improving spatial and temporal locality for semantic operations, reducing cache misses (19.23% relative gain), and decreasing the memory consumption and disk-based build time by 24x over the DiskANN algorithm. Finally, it enables dissimilarity queries, which are not supported by similarity-oriented ANN indices.
- Abstract(参考訳): 特殊ベクトルデータベース(VDB)による埋め込みベクトルのストアリングと処理は、現代のAIパイプライン構築におけるリンチピンとなっている。
現在のVDBの多くは、グラフベースのap-proximate Near- Neighbor(ANN)インデックスアルゴリズム(HNSW)の変種を、ストアドベクター上のan- swerセマンティッククエリに採用している。
HNSWアルゴリズムには、インメモリ設計と実装、キャッシュ動作の劣化につながるランダムメモリアクセス、微粒なペアワイズ計算による限定的な加速範囲、意味的類似性クエリのサポートなど、いくつかの問題がある。
本稿では,これらの問題に対処する新しいディスクベースANNインデックス,B+ANNを提案する。まず,入力データを意味的に類似した項目を含むブロックに分割し,次に,ブロックをインメモリとディスクの両方に格納するためのB+ツリー変異を構築し,最後にエッジとブロックベースのインメモリトラバースを可能にする。
実験により,提案したB+ANNディスクベースインデックスは,意味操作の空間的および時間的局所性を向上し,キャッシュミス(19.23%の相対的なゲイン)を低減し,メモリ消費とディスクベースのビルド時間をDiskANNアルゴリズムの24倍に削減することで,HNSW上の品質(リコール値)と実行性能(秒/QPS)の両方を改善した。
最後に、類似性指向のANNインデックスではサポートされない異種クエリが可能である。
関連論文リスト
- DGAI: Decoupled On-Disk Graph-Based ANN Index for Efficient Updates and Queries [14.147837695174722]
オンディスクグラフに基づくインデックスは、大規模で高次元のベクトルに対する近接近接探索システム(ANN)において広く使われている。
インデックス内にベクトルを格納する従来の結合ストレージ方式は、インデックス更新に非効率である。
本稿では,疎結合型ストレージアーキテクチャを提案するが,疎結合型アーキテクチャはクエリ性能を低下させる。
論文 参考訳(メタデータ) (2025-10-29T11:20:10Z) - Scalable Disk-Based Approximate Nearest Neighbor Search with Page-Aligned Graph [3.994346326254537]
本稿では,ディスクベースの近接探索(ANNS)フレームワークであるPageANNを提案する。
その結果、PageANNは最先端(SOTA)ディスクベースのANNS法を著しく上回り、1.85x-10.83倍のスループット、51.7%-91.9%のレイテンシを異なるデータセットとメモリ予算で達成した。
論文 参考訳(メタデータ) (2025-09-29T20:44:13Z) - HAKES: Scalable Vector Database for Embedding Search Service [16.034584281180006]
我々は,並列な読み書きワークロード下で高いスループットと高いリコールを実現するベクトルデータベースを構築した。
我々のインデックスは、高リコール領域と同時読み書きワークロード下でインデックスベースラインより優れています。
nameysはスケーラブルで、ベースラインよりも最大16タイムで高いスループットを実現します。
論文 参考訳(メタデータ) (2025-05-18T19:26:29Z) - On Storage Neural Network Augmented Approximate Nearest Neighbor Search [1.3654846342364308]
メモリ上のデータではなく、ストレージデバイスに格納されているデータから、与えられたクエリベクターに最もよく似たベクターを検索する必要がある。
本稿では,ニューラルネットワークを用いて正しいクラスタを予測する手法を提案する。
K平均クラスタリングと線形サーチを併用した,最先端SPANNと網羅的手法と比較して, SIFT1Mでは, ストレージから取得したデータの80%と58%の削減で, 90%のリコールを実現している。
論文 参考訳(メタデータ) (2025-01-23T06:56:18Z) - FUSELOC: Fusing Global and Local Descriptors to Disambiguate 2D-3D Matching in Visual Localization [52.57327385675752]
直接2D-3Dマッチングではメモリが大幅に削減されるが、より大きくあいまいな検索空間のために精度が低下する。
重み付き平均演算子を用いて局所的および大域的記述子を融合することにより、この曖昧さに対処する。
メモリを43%削減し、1.6倍高速に動作しながら、階層的な手法に近いパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-08-21T23:42:16Z) - Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。
SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - Accelerating Barnes-Hut t-SNE Algorithm by Efficient Parallelization on
Multi-Core CPUs [59.18990342943095]
t-SNEは高次元データを視覚化するための最も一般的な埋め込み技術の一つである。
BH t-SNEアルゴリズムは既存のCPU実装では非効率である。
Acc-t-SNEはScikit-learnよりも最大261倍、4倍高速で、daal4pyの最先端のBH t-SNE実装である。
論文 参考訳(メタデータ) (2022-12-22T06:38:40Z) - ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。
ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。
ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文 参考訳(メタデータ) (2021-10-01T16:25:40Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。