論文の概要: Filtered Approximate Nearest Neighbor Search in Vector Databases: System Design and Performance Analysis
- arxiv url: http://arxiv.org/abs/2602.11443v1
- Date: Wed, 11 Feb 2026 23:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.577585
- Title: Filtered Approximate Nearest Neighbor Search in Vector Databases: System Design and Performance Analysis
- Title(参考訳): ベクトルデータベースにおけるフィルタ近似近傍探索:システム設計と性能解析
- Authors: Abylay Amanbayev, Brian Tsan, Tri Dang, Florin Rusu,
- Abstract要約: Filtered Approximate Nearest Neighbor Search (FANNS) は、セマンティック検索とメタデータの制約を組み合わせるために用いられる。
本研究では,フィルタリング戦略の分類を体系化し,それらのベクトルへの統合性を評価する。
実験の結果,エンジン内のアルゴリズム適応がしばしば生のインデックス性能を上回ることがわかった。
- 参考スコア(独自算出の注目度): 0.5249805590164902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) applications increasingly rely on Filtered Approximate Nearest Neighbor Search (FANNS) to combine semantic retrieval with metadata constraints. While algorithmic innovations for FANNS have been proposed, there remains a lack of understanding regarding how generic filtering strategies perform within Vector Databases. In this work, we systematize the taxonomy of filtering strategies and evaluate their integration into FAISS, Milvus, and pgvector. To provide a robust benchmarking framework, we introduce a new relational dataset, \textit{MoReVec}, consisting of two tables, featuring 768-dimensional text embeddings and a rich schema of metadata attributes. We further propose the \textit{Global-Local Selectivity (GLS)} correlation metric to quantify the relationship between filters and query vectors. Our experiments reveal that algorithmic adaptations within the engine often override raw index performance. Specifically, we find that: (1) \textit{Milvus} achieves superior recall stability through hybrid approximate/exact execution; (2) \textit{pgvector}'s cost-based query optimizer frequently selects suboptimal execution plans, favoring approximate index scans even when exact sequential scans would yield perfect recall at comparable latency; and (3) partition-based indexes (IVFFlat) outperform graph-based indexes (HNSW) for low-selectivity queries. To facilitate this analysis, we extend the widely-used \textit{ANN-Benchmarks} to support filtered vector search and make it available online. Finally, we synthesize our findings into a set of practical guidelines for selecting index types and configuring query optimizers for hybrid search workloads.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) アプリケーションは、意味論的検索とメタデータの制約を組み合わせるためにフィルタされた近似近傍探索 (FANNS) に依存している。
FANNSのアルゴリズム的革新は提案されているが、Vector Database内での一般的なフィルタリング戦略がどのように機能するかについては理解されていない。
本研究では,フィルタリング戦略の分類を体系化し,FAISS,Milvus,pgvectorへの統合を評価する。
768次元のテキスト埋め込みとメタデータ属性の豊富なスキーマを特徴とする2つのテーブルからなる新しい関係データセットである \textit{MoReVec} を導入する。
さらに,フィルタとクエリベクトルの関係を定量化するために,<textit{Global-Local Selectivity (GLS) 相関指標を提案する。
実験の結果,エンジン内のアルゴリズム適応がしばしば生のインデックス性能を上回ることがわかった。
具体的には,(1) <textit{Milvus} は,ハイブリッドな近似/エクサクティヴ実行によって優れたリコール安定性を達成し,(2) \textit{pgvector} のコストベースのクエリオプティマイザは,精度の高いシーケンシャルスキャンが同等のレイテンシで完全リコールを得られる場合であっても,しばしば最適な実行計画を選択する。
この分析を容易にするために、広く使われている \textit{ANN-Benchmarks} を拡張して、フィルタリングベクター検索をサポートし、オンラインで利用できるようにする。
最後に,本研究の成果を,インデックスタイプを選択し,クエリオプティマイザをハイブリッド検索ワークロードに設定するための一連の実践的ガイドラインにまとめる。
関連論文リスト
- Curator: Efficient Vector Search with Low-Selectivity Filters [12.774238654446032]
グラフベースのインデックスは、未フィルタリングANNSでは最先端のパフォーマンスを実現するが、低選択性フィルタリングクエリでは接続性の低下に遭遇する。
近年の研究では、グラフ度を拡大することでこの問題に対処するグラフインデックスが提案されている。
低選択性フィルタANNSに対する既存のグラフベースのアプローチを補完する分割型インデックスであるCuratorを提案する。
論文 参考訳(メタデータ) (2026-01-03T21:35:01Z) - Benchmarking Filtered Approximate Nearest Neighbor Search Algorithms on Transformer-based Embedding Vectors [18.796661826646616]
Filtered Approximate Nearest Neighbor Search (FANNS) は、フィルタされた近似Nearest Neighbor Search (FANNS) と呼ばれる問題である。
本稿では, FANNS手法の総合的な調査と分類について紹介し, それらが文献でどのようにベンチマークされているか分析する。
本稿では、arXivリポジトリから270万以上の研究論文を要約したベクトルを埋め込んだ新しいデータセットについて紹介する。
論文 参考訳(メタデータ) (2025-07-29T16:39:54Z) - NaviX: A Native Vector Index Design for Graph DBMSs With Robust Predicate-Agnostic Search Performance [7.108581652658526]
グラフ(GDBMS)のネイティブベクトルインデックスであるNaviXを提示する。
NaviXは階層的ナビゲート可能な小型世界(HNSW)グラフ上に構築されている。
論文 参考訳(メタデータ) (2025-06-29T21:16:07Z) - Billion-scale Similarity Search Using a Hybrid Indexing Approach with Advanced Filtering [49.1574468325115]
本稿では,CPU推論に最適化された数十億規模のデータセット上での複雑なフィルタリング機能を備えた類似度探索のための新しい手法を提案する。
提案手法は,従来のIVF-Flatインデックス構造を拡張し,多次元フィルタを統合する。
提案アルゴリズムは,高次元空間での高速な探索を可能にするため,高密度埋め込みと離散フィルタ特性を組み合わせる。
論文 参考訳(メタデータ) (2025-01-23T07:47:00Z) - Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。
本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T12:46:23Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Reinforcement Learning Based Query Vertex Ordering Model for Subgraph
Matching [58.39970828272366]
グラフマッチングアルゴリズムは、クエリグラフの埋め込みをデータグラフGに列挙する。
マッチング順序は、これらのバックトラックに基づくサブグラフマッチングアルゴリズムの時間効率において重要な役割を果たす。
本稿では,Reinforcement Learning (RL) と Graph Neural Networks (GNN) 技術を適用して,グラフマッチングアルゴリズムの高品質なマッチング順序を生成する。
論文 参考訳(メタデータ) (2022-01-25T00:10:03Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。