論文の概要: Multiple Index Merge for Approximate Nearest Neighbor Search
- arxiv url: http://arxiv.org/abs/2602.17099v1
- Date: Thu, 19 Feb 2026 05:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.713983
- Title: Multiple Index Merge for Approximate Nearest Neighbor Search
- Title(参考訳): 近似近傍探索のための多重インデックスマージ
- Authors: Liuchang Jing, Mingyu Yang, Lei Li, Jianbin Qin, Wei Wang,
- Abstract要約: 本稿では、AKNN検索のための効率的な2次元統合と複数のインデックスのマージ順序について述べる。
本稿では,構造情報を活用してマージ効率を向上させるリバース隣り合うスライディング・マージ(RNSM)を提案する。
実験の結果,既存のインデックスマージ法よりも5.48$times$スピードアップ,9.92$times$インデックス再構成よりも9.92$times$スピードアップが得られた。
- 参考スコア(独自算出の注目度): 14.386466486046814
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Approximate $k$ nearest neighbor (AKNN) search in high-dimensional space is a foundational problem in vector databases with widespread applications. Among the numerous AKNN indexes, Proximity Graph-based indexes achieve state-of-the-art search efficiency across various benchmarks. However, their extensive distance computations of high-dimensional vectors lead to slow construction and substantial memory overhead. The limited memory capacity often prevents building the entire index at once when handling large-scale datasets. A common practice is to build multiple sub-indexes separately. However, directly searching on these separated indexes severely compromises search efficiency, as queries cannot leverage cross-graph connections. Therefore, efficient graph index merging is crucial for multi-index searching. In this paper, we focus on efficient two-index merging and the merge order of multiple indexes for AKNN search. To achieve this, we propose a reverse neighbor sliding merge (RNSM) that exploits structural information to boost merging efficiency. We further investigate merge order selection (MOS) to reduce the merging cost by eliminating redundant merge operations. Experiments show that our approach yields up to a 5.48$\times$ speedup over existing index merge methods and 9.92$\times$ speedup over index reconstruction, while maintaining expected superior search performance. Moreover, our method scales efficiently to 100 million vectors with 50 partitions, maintaining consistent speedups.
- Abstract(参考訳): 高次元空間における近似$k$近辺探索(AKNN)は、広く応用されているベクトルデータベースの基本問題である。
多くのAKNNインデックスの中で、プロキシグラフベースのインデックスは、様々なベンチマークで最先端の検索効率を達成する。
しかし、それらの高次元ベクトルの広範な距離計算は、遅い構成とかなりのメモリオーバーヘッドをもたらす。
メモリ容量の制限により、大規模なデータセットを扱う場合、インデックス全体を一度に構築することができないことが多い。
一般的なプラクティスは、複数のサブインデックスを別々に構築することです。
しかし、これらの分離されたインデックスを直接検索することは、クエリーがクロスグラフ接続を活用できないため、検索効率を著しく損なう。
したがって、マルチインデックス検索には効率的なグラフインデックスのマージが不可欠である。
本稿では,AKNN検索における効率の良い2インデックスマージと複数インデックスのマージ順序に着目した。
これを実現するために,構造情報を活用してマージ効率を向上させるリバース隣り合うスライディングマージ(RNSM)を提案する。
さらに、余剰なマージ操作を排除し、マージコストを削減するためにマージ順序選択(MOS)について検討する。
実験の結果、既存のインデックスマージ手法よりも5.48$\times$の高速化と、インデックス再構築よりも9.92$\times$の高速化が期待される検索性能を維持しながら得られることがわかった。
さらに,50個のパーティションを持つ1億個のベクトルに効率よくスケールし,一貫したスピードアップを維持する。
関連論文リスト
- Rethinking ANN-based Retrieval: Multifaceted Learnable Index for Large-scale Recommendation System [46.70111672855811]
MultiFaceted Learnable Index (MFLI)は、マルチフェイスアイテムの埋め込みとインデックスを統一されたフレームワーク内で学習するスケーラブルでリアルタイムな検索パラダイムである。
MFLIは、エンゲージメントタスクのリコールを最大11.8%改善し、コールドコンテントデリバリを最大57.29%改善し、セマンティック関連性を従来の最先端手法と比較して13.5%改善した。
論文 参考訳(メタデータ) (2026-02-18T01:31:29Z) - DGAI: Decoupled On-Disk Graph-Based ANN Index for Efficient Updates and Queries [14.147837695174722]
オンディスクグラフに基づくインデックスは、大規模で高次元のベクトルに対する近接近接探索システム(ANN)において広く使われている。
インデックス内にベクトルを格納する従来の結合ストレージ方式は、インデックス更新に非効率である。
本稿では,疎結合型ストレージアーキテクチャを提案するが,疎結合型アーキテクチャはクエリ性能を低下させる。
論文 参考訳(メタデータ) (2025-10-29T11:20:10Z) - HAKES: Scalable Vector Database for Embedding Search Service [16.034584281180006]
我々は,並列な読み書きワークロード下で高いスループットと高いリコールを実現するベクトルデータベースを構築した。
我々のインデックスは、高リコール領域と同時読み書きワークロード下でインデックスベースラインより優れています。
nameysはスケーラブルで、ベースラインよりも最大16タイムで高いスループットを実現します。
論文 参考訳(メタデータ) (2025-05-18T19:26:29Z) - MINT: Multi-Vector Search Index Tuning [11.309615417231498]
レイテンシを最小化し、ストレージとリコールの制約を満たすインデックスを見つけるアルゴリズムを開発した。
ベースラインと比較して、レイテンシは2.1倍から8.3倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-04-28T17:36:06Z) - Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。
本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T12:46:23Z) - Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。
SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - Compact Neural Graphics Primitives with Learned Hash Probing [100.07267906666293]
学習したプローブを持つハッシュテーブルにはデメリットはなく,その結果,サイズと速度の組合せが好適であることを示す。
推論は、トレーニングが1.2-2.6倍遅い間、同じ品質で未処理のハッシュテーブルよりも高速である。
論文 参考訳(メタデータ) (2023-12-28T18:58:45Z) - Towards Improving the Consistency, Efficiency, and Flexibility of
Differentiable Neural Architecture Search [84.4140192638394]
最も微分可能なニューラルアーキテクチャ探索法は、探索用のスーパーネットを構築し、そのサブグラフとしてターゲットネットを導出する。
本稿では,エンジンセルとトランジットセルからなるEnTranNASを紹介する。
また,検索処理の高速化を図るため,メモリや計算コストの削減も図っている。
論文 参考訳(メタデータ) (2021-01-27T12:16:47Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z) - Tsunami: A Learned Multi-dimensional Index for Correlated Data and
Skewed Workloads [29.223401893397714]
我々は,既存の学習した多次元インデックスよりも最大6倍高速なクエリ性能と最大8倍のインデックスサイズを実現する綱見を紹介した。
論文 参考訳(メタデータ) (2020-06-23T19:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。