論文の概要: Filtered Approximate Nearest Neighbor Search in Vector Databases: System Design and Performance Analysis
- arxiv url: http://arxiv.org/abs/2602.11443v1
- Date: Wed, 11 Feb 2026 23:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.577585
- Title: Filtered Approximate Nearest Neighbor Search in Vector Databases: System Design and Performance Analysis
- Title(参考訳): ベクトルデータベースにおけるフィルタ近似近傍探索:システム設計と性能解析
- Authors: Abylay Amanbayev, Brian Tsan, Tri Dang, Florin Rusu,
- Abstract要約: Filtered Approximate Nearest Neighbor Search (FANNS) は、セマンティック検索とメタデータの制約を組み合わせるために用いられる。
本研究では,フィルタリング戦略の分類を体系化し,それらのベクトルへの統合性を評価する。
実験の結果,エンジン内のアルゴリズム適応がしばしば生のインデックス性能を上回ることがわかった。
- 参考スコア(独自算出の注目度): 0.5249805590164902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) applications increasingly rely on Filtered Approximate Nearest Neighbor Search (FANNS) to combine semantic retrieval with metadata constraints. While algorithmic innovations for FANNS have been proposed, there remains a lack of understanding regarding how generic filtering strategies perform within Vector Databases. In this work, we systematize the taxonomy of filtering strategies and evaluate their integration into FAISS, Milvus, and pgvector. To provide a robust benchmarking framework, we introduce a new relational dataset, \textit{MoReVec}, consisting of two tables, featuring 768-dimensional text embeddings and a rich schema of metadata attributes. We further propose the \textit{Global-Local Selectivity (GLS)} correlation metric to quantify the relationship between filters and query vectors. Our experiments reveal that algorithmic adaptations within the engine often override raw index performance. Specifically, we find that: (1) \textit{Milvus} achieves superior recall stability through hybrid approximate/exact execution; (2) \textit{pgvector}'s cost-based query optimizer frequently selects suboptimal execution plans, favoring approximate index scans even when exact sequential scans would yield perfect recall at comparable latency; and (3) partition-based indexes (IVFFlat) outperform graph-based indexes (HNSW) for low-selectivity queries. To facilitate this analysis, we extend the widely-used \textit{ANN-Benchmarks} to support filtered vector search and make it available online. Finally, we synthesize our findings into a set of practical guidelines for selecting index types and configuring query optimizers for hybrid search workloads.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) アプリケーションは、意味論的検索とメタデータの制約を組み合わせるためにフィルタされた近似近傍探索 (FANNS) に依存している。
FANNSのアルゴリズム的革新は提案されているが、Vector Database内での一般的なフィルタリング戦略がどのように機能するかについては理解されていない。
本研究では,フィルタリング戦略の分類を体系化し,FAISS,Milvus,pgvectorへの統合を評価する。
768次元のテキスト埋め込みとメタデータ属性の豊富なスキーマを特徴とする2つのテーブルからなる新しい関係データセットである \textit{MoReVec} を導入する。
さらに,フィルタとクエリベクトルの関係を定量化するために,<textit{Global-Local Selectivity (GLS) 相関指標を提案する。
実験の結果,エンジン内のアルゴリズム適応がしばしば生のインデックス性能を上回ることがわかった。
具体的には,(1) <textit{Milvus} は,ハイブリッドな近似/エクサクティヴ実行によって優れたリコール安定性を達成し,(2) \textit{pgvector} のコストベースのクエリオプティマイザは,精度の高いシーケンシャルスキャンが同等のレイテンシで完全リコールを得られる場合であっても,しばしば最適な実行計画を選択する。
この分析を容易にするために、広く使われている \textit{ANN-Benchmarks} を拡張して、フィルタリングベクター検索をサポートし、オンラインで利用できるようにする。
最後に,本研究の成果を,インデックスタイプを選択し,クエリオプティマイザをハイブリッド検索ワークロードに設定するための一連の実践的ガイドラインにまとめる。
関連論文リスト
- JAG: Joint Attribute Graphs for Filtered Nearest Neighbor Search [8.398505388767248]
JAG(Joint Attribute Graphs)は、グラフベースのアルゴリズムで、選択スペクトル全体にわたって堅牢なパフォーマンスを実現する。
実験の結果,JAGはスループットとリコールロバスト性の両方において,既存の最先端のベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2026-02-10T20:00:51Z) - Curator: Efficient Vector Search with Low-Selectivity Filters [12.774238654446032]
グラフベースのインデックスは、未フィルタリングANNSでは最先端のパフォーマンスを実現するが、低選択性フィルタリングクエリでは接続性の低下に遭遇する。
近年の研究では、グラフ度を拡大することでこの問題に対処するグラフインデックスが提案されている。
低選択性フィルタANNSに対する既存のグラフベースのアプローチを補完する分割型インデックスであるCuratorを提案する。
論文 参考訳(メタデータ) (2026-01-03T21:35:01Z) - Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - Benchmarking Filtered Approximate Nearest Neighbor Search Algorithms on Transformer-based Embedding Vectors [18.796661826646616]
Filtered Approximate Nearest Neighbor Search (FANNS) は、フィルタされた近似Nearest Neighbor Search (FANNS) と呼ばれる問題である。
本稿では, FANNS手法の総合的な調査と分類について紹介し, それらが文献でどのようにベンチマークされているか分析する。
本稿では、arXivリポジトリから270万以上の研究論文を要約したベクトルを埋め込んだ新しいデータセットについて紹介する。
論文 参考訳(メタデータ) (2025-07-29T16:39:54Z) - NaviX: A Native Vector Index Design for Graph DBMSs With Robust Predicate-Agnostic Search Performance [7.108581652658526]
グラフ(GDBMS)のネイティブベクトルインデックスであるNaviXを提示する。
NaviXは階層的ナビゲート可能な小型世界(HNSW)グラフ上に構築されている。
論文 参考訳(メタデータ) (2025-06-29T21:16:07Z) - Billion-scale Similarity Search Using a Hybrid Indexing Approach with Advanced Filtering [49.1574468325115]
本稿では,CPU推論に最適化された数十億規模のデータセット上での複雑なフィルタリング機能を備えた類似度探索のための新しい手法を提案する。
提案手法は,従来のIVF-Flatインデックス構造を拡張し,多次元フィルタを統合する。
提案アルゴリズムは,高次元空間での高速な探索を可能にするため,高密度埋め込みと離散フィルタ特性を組み合わせる。
論文 参考訳(メタデータ) (2025-01-23T07:47:00Z) - Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。
本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T12:46:23Z) - Efficient Data Access Paths for Mixed Vector-Relational Search [8.80592433569832]
機械学習とベクトル埋め込みを用いたデータ処理手法の採用は、ベクトルデータ管理のためのシステム構築に大きな関心を喚起した。
ベクトルデータ管理の主流のアプローチは、ベクトル埋め込み全体を高速に検索するために特別なインデックス構造を使用することであるが、一度他の(メタ)データと組み合わせると、検索クエリはリレーショナル属性に対して選択的になる。
ベクトルインデックスは従来の関係データアクセスと異なるため、効率的な混合ベクトル関係探索のための代替アクセスパスを再検討し分析する。
論文 参考訳(メタデータ) (2024-03-23T11:34:17Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Reinforcement Learning Based Query Vertex Ordering Model for Subgraph
Matching [58.39970828272366]
グラフマッチングアルゴリズムは、クエリグラフの埋め込みをデータグラフGに列挙する。
マッチング順序は、これらのバックトラックに基づくサブグラフマッチングアルゴリズムの時間効率において重要な役割を果たす。
本稿では,Reinforcement Learning (RL) と Graph Neural Networks (GNN) 技術を適用して,グラフマッチングアルゴリズムの高品質なマッチング順序を生成する。
論文 参考訳(メタデータ) (2022-01-25T00:10:03Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。