論文の概要: Curator: Efficient Vector Search with Low-Selectivity Filters
- arxiv url: http://arxiv.org/abs/2601.01291v2
- Date: Wed, 07 Jan 2026 15:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.013818
- Title: Curator: Efficient Vector Search with Low-Selectivity Filters
- Title(参考訳): キュレーター:低選択性フィルタを用いた効率的なベクトル探索
- Authors: Yicheng Jin, Yongji Wu, Wenjun Hu, Bruce M. Maggs, Jun Yang, Xiao Zhang, Danyang Zhuo,
- Abstract要約: グラフベースのインデックスは、未フィルタリングANNSでは最先端のパフォーマンスを実現するが、低選択性フィルタリングクエリでは接続性の低下に遭遇する。
近年の研究では、グラフ度を拡大することでこの問題に対処するグラフインデックスが提案されている。
低選択性フィルタANNSに対する既存のグラフベースのアプローチを補完する分割型インデックスであるCuratorを提案する。
- 参考スコア(独自算出の注目度): 12.774238654446032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding-based dense retrieval has become the cornerstone of many critical applications, where approximate nearest neighbor search (ANNS) queries are often combined with filters on labels such as dates and price ranges. Graph-based indexes achieve state-of-the-art performance on unfiltered ANNS but encounter connectivity breakdown on low-selectivity filtered queries, where qualifying vectors become sparse and the graph structure among them fragments. Recent research proposes specialized graph indexes that address this issue by expanding graph degree, which incurs prohibitively high construction costs. Given these inherent limitations of graph-based methods, we argue for a dual-index architecture and present Curator, a partition-based index that complements existing graph-based approaches for low-selectivity filtered ANNS. Curator builds specialized indexes for different labels within a shared clustering tree, where each index adapts to the distribution of its qualifying vectors to ensure efficient search while sharing structure to minimize memory overhead. The system also supports incremental updates and handles arbitrary complex predicates beyond single-label filters by efficiently constructing temporary indexes on the fly. Our evaluation demonstrates that integrating Curator with state-of-the-art graph indexes reduces low-selectivity query latency by up to 20.9x compared to pre-filtering fallback, while increasing construction time and memory footprint by only 5.5% and 4.3%, respectively.
- Abstract(参考訳): 埋め込みに基づく高密度検索が多くの重要なアプリケーションの基礎となり、近接する近接探索(ANNS)クエリは日付や価格範囲などのラベルのフィルタと組み合わせられることが多い。
グラフベースのインデックスは、未フィルタリングANNSでは最先端のパフォーマンスを実現するが、低選択性フィルタクエリでは接続性の低下に遭遇する。
近年の研究では、グラフの度合いを拡大することでこの問題に対処する特殊なグラフインデックスが提案されている。
グラフベースの手法に固有の制約を考慮し、二重インデックスアーキテクチャと、従来のグラフベースの低選択性フィルタANNSを補完する分割型インデックスであるCuratorを論じる。
Curatorは、共有クラスタリングツリー内で異なるラベルのための特別なインデックスを構築し、各インデックスは、その基準ベクトルの分布に適応し、メモリオーバーヘッドを最小限に抑えるために共有構造を保ちながら効率的な検索を保証する。
また、インクリメンタルな更新もサポートし、オンザフライで一時的なインデックスを効率的に構築することで、シングルラベルフィルタを超えて任意の複雑な述語を処理する。
評価の結果,Curatorを最先端グラフインデックスと組み合わせることで,フィルタ前のフォールバックに比べて,低選択性クエリのレイテンシが最大20.9倍削減され,建設時間とメモリフットプリントは5.5%,メモリフットプリントは4.3%に向上した。
関連論文リスト
- DGAI: Decoupled On-Disk Graph-Based ANN Index for Efficient Updates and Queries [14.147837695174722]
オンディスクグラフに基づくインデックスは、大規模で高次元のベクトルに対する近接近接探索システム(ANN)において広く使われている。
インデックス内にベクトルを格納する従来の結合ストレージ方式は、インデックス更新に非効率である。
本稿では,疎結合型ストレージアーキテクチャを提案するが,疎結合型アーキテクチャはクエリ性能を低下させる。
論文 参考訳(メタデータ) (2025-10-29T11:20:10Z) - SIEVE: Effective Filtered Vector Search with Collection of Indexes [11.81573028534193]
子供タグで動画を推薦するといった現実世界のタスクは、ハードな述語に関連する最も類似したベクターを見つけるために削減できる。
従来の最先端のグラフベース類似性探索技術は、厳しい制約を考慮すると急速に退化する。
選択性や形態の異なるデータセットに対して,優れた性能とサポートを示す。
論文 参考訳(メタデータ) (2025-07-16T04:46:28Z) - NaviX: A Native Vector Index Design for Graph DBMSs With Robust Predicate-Agnostic Search Performance [7.108581652658526]
グラフ(GDBMS)のネイティブベクトルインデックスであるNaviXを提示する。
NaviXは階層的ナビゲート可能な小型世界(HNSW)グラフ上に構築されている。
論文 参考訳(メタデータ) (2025-06-29T21:16:07Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - iRangeGraph: Improvising Range-dedicated Graphs for Range-filtering Nearest Neighbor Search [24.85572470526277]
周辺地域を探索するRFANN(Range-filtering Near Near Near Near neighbor)は、学術や産業で注目を集めている。
最近の研究では、可能な全てのクエリ範囲に対して、$O(n2)$専用のグラフベースのインデックスを構築することを提案する。
要素グラフと呼ばれるグラフベースのインデックスを適度な範囲で作成する。
論文 参考訳(メタデータ) (2024-09-04T09:41:52Z) - Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。
SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - End-to-End Learning to Index and Search in Large Output Spaces [95.16066833532396]
Extreme Multi-label Classification (XMC) は現実世界の問題を解決するための一般的なフレームワークである。
本稿では,木系インデックスを特殊重み付きグラフベースインデックスに緩和する新しい手法を提案する。
ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-16T01:34:17Z) - Reinforcement Learning Based Query Vertex Ordering Model for Subgraph
Matching [58.39970828272366]
グラフマッチングアルゴリズムは、クエリグラフの埋め込みをデータグラフGに列挙する。
マッチング順序は、これらのバックトラックに基づくサブグラフマッチングアルゴリズムの時間効率において重要な役割を果たす。
本稿では,Reinforcement Learning (RL) と Graph Neural Networks (GNN) 技術を適用して,グラフマッチングアルゴリズムの高品質なマッチング順序を生成する。
論文 参考訳(メタデータ) (2022-01-25T00:10:03Z) - Towards Improving the Consistency, Efficiency, and Flexibility of
Differentiable Neural Architecture Search [84.4140192638394]
最も微分可能なニューラルアーキテクチャ探索法は、探索用のスーパーネットを構築し、そのサブグラフとしてターゲットネットを導出する。
本稿では,エンジンセルとトランジットセルからなるEnTranNASを紹介する。
また,検索処理の高速化を図るため,メモリや計算コストの削減も図っている。
論文 参考訳(メタデータ) (2021-01-27T12:16:47Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。