論文の概要: Attribute Filtering in Approximate Nearest Neighbor Search: An In-depth Experimental Study
- arxiv url: http://arxiv.org/abs/2508.16263v1
- Date: Fri, 22 Aug 2025 09:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.345816
- Title: Attribute Filtering in Approximate Nearest Neighbor Search: An In-depth Experimental Study
- Title(参考訳): 近似近傍探索における属性フィルタリング : 深部実験による検討
- Authors: Mocheng Li, Xiao Yan, Baotong Lu, Yue Zhang, James Cheng, Chenhao Ma,
- Abstract要約: 本稿では,最新のアルゴリズムを包含した統合フィルタリングANN検索インタフェースを提案する。
まず,属性型とフィルタリング戦略に基づく既存のフィルタANNアルゴリズムの包括的分類法を提案する。
次に、4つのデータセットにまたがる10のアルゴリズムと12のメソッドについて、幅広い実験的評価を行う。
- 参考スコア(独自算出の注目度): 18.5007917065799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing integration of structured and unstructured data, new methods have emerged for performing similarity searches on vectors while honoring structured attribute constraints, i.e., a process known as Filtering Approximate Nearest Neighbor (Filtering ANN) search. Since many of these algorithms have only appeared in recent years and are designed to work with a variety of base indexing methods and filtering strategies, there is a pressing need for a unified analysis that identifies their core techniques and enables meaningful comparisons. In this work, we present a unified Filtering ANN search interface that encompasses the latest algorithms and evaluate them extensively from multiple perspectives. First, we propose a comprehensive taxonomy of existing Filtering ANN algorithms based on attribute types and filtering strategies. Next, we analyze their key components, i.e., index structures, pruning strategies, and entry point selection, to elucidate design differences and tradeoffs. We then conduct a broad experimental evaluation on 10 algorithms and 12 methods across 4 datasets (each with up to 10 million items), incorporating both synthetic and real attributes and covering selectivity levels from 0.1% to 100%. Finally, an in-depth component analysis reveals the influence of pruning, entry point selection, and edge filtering costs on overall performance. Based on our findings, we summarize the strengths and limitations of each approach, provide practical guidelines for selecting appropriate methods, and suggest promising directions for future research. Our code is available at: https://github.com/lmccccc/FANNBench.
- Abstract(参考訳): 構造化データと非構造化データの統合が進むにつれ、構造的属性制約を尊重しながらベクトル上で類似性探索を行う新たな手法が出現している。
これらのアルゴリズムの多くは近年出現し、様々なベースインデックス手法やフィルタリング戦略を扱うように設計されているため、コア技術を特定し、有意義な比較を可能にする統一的な分析の必要性が高まっている。
本研究では,最新のアルゴリズムを包含した統合フィルタリングANN検索インタフェースを提案する。
まず,属性型とフィルタリング戦略に基づく既存のフィルタANNアルゴリズムの包括的分類法を提案する。
次に、設計上の違いとトレードオフを明らかにするために、インデックス構造、プルーニング戦略、エントリポイント選択といった重要なコンポーネントを分析します。
次に、4つのデータセット(それぞれ最大1000万項目)にまたがる10のアルゴリズムと12のメソッドについて、幅広い実験的評価を行い、合成属性と実属性の両方を取り入れ、選択度レベルを0.1%から100%までカバーした。
最後に, プルーニング, エントリーポイント選択, エッジフィルタリングのコストが全体的な性能に与える影響を明らかにする。
本研究は,それぞれのアプローチの長所と短所を要約し,適切な方法を選択するための実践的ガイドラインを提供し,今後の研究に向けて有望な方向性を提案する。
私たちのコードは、https://github.com/lmccccc/FANNBench.comで利用可能です。
関連論文リスト
- Benchmarking Filtered Approximate Nearest Neighbor Search Algorithms on Transformer-based Embedding Vectors [18.796661826646616]
Filtered Approximate Nearest Neighbor Search (FANNS) は、フィルタされた近似Nearest Neighbor Search (FANNS) と呼ばれる問題である。
本稿では, FANNS手法の総合的な調査と分類について紹介し, それらが文献でどのようにベンチマークされているか分析する。
本稿では、arXivリポジトリから270万以上の研究論文を要約したベクトルを埋め込んだ新しいデータセットについて紹介する。
論文 参考訳(メタデータ) (2025-07-29T16:39:54Z) - Billion-scale Similarity Search Using a Hybrid Indexing Approach with Advanced Filtering [49.1574468325115]
本稿では,CPU推論に最適化された数十億規模のデータセット上での複雑なフィルタリング機能を備えた類似度探索のための新しい手法を提案する。
提案手法は,従来のIVF-Flatインデックス構造を拡張し,多次元フィルタを統合する。
提案アルゴリズムは,高次元空間での高速な探索を可能にするため,高密度埋め込みと離散フィルタ特性を組み合わせる。
論文 参考訳(メタデータ) (2025-01-23T07:47:00Z) - A Greedy Hierarchical Approach to Whole-Network Filter-Pruning in CNNs [2.188091591747149]
全体ネットワークフィルタプルーニングアルゴリズムは、各層から異なるフィルタ分を抽出するので、柔軟性が向上する。
本稿では,全ネットワークフィルタプルーニングにおける2段階階層的手法を提案する。
本稿では,ResNext101のRAM要件を7.6GBから1.5GBに削減し,CIFAR-10の精度を損なうことなくFLOPSの94%削減を実現する。
論文 参考訳(メタデータ) (2024-08-22T03:59:57Z) - Beyond Discrete Selection: Continuous Embedding Space Optimization for
Generative Feature Selection [34.32619834917906]
我々は、特徴選択問題を深い微分可能な最適化タスクとして再構成する。
本稿では,離散的特徴部分集合を連続的な埋め込み空間として概念化する,新しい原理的な研究視点を提案する。
具体的には、強化特徴選択学習を利用して、多種多様な高品質なトレーニングデータを生成する。
論文 参考訳(メタデータ) (2023-02-26T03:18:45Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z) - Infinite Feature Selection: A Graph-based Feature Filtering Approach [78.63188057505012]
グラフ内の経路として特徴のサブセットを考慮したフィルタリング機能選択フレームワークを提案する。
無限に進むことで、選択プロセスの計算複雑性を制限できる。
Inf-FSはほとんどどんな状況でも、つまり、保持するフィーチャの数が優先順位に固定されているときに、より良く振る舞うことを示す。
論文 参考訳(メタデータ) (2020-06-15T07:20:40Z) - Dependency Aware Filter Pruning [74.69495455411987]
重要でないフィルタを割ることは、推論コストを軽減するための効率的な方法である。
以前の作業は、その重み基準やそれに対応するバッチノームスケーリング要因に従ってフィルタをプルークする。
所望の空間性を達成するために,空間性誘導正規化を動的に制御する機構を提案する。
論文 参考訳(メタデータ) (2020-05-06T07:41:22Z) - LSF-Join: Locality Sensitive Filtering for Distributed All-Pairs Set
Similarity Under Skew [58.21885402826496]
全ペアセットの類似性は、大規模で高次元のデータセットであっても広く使われているデータマイニングタスクである。
我々は,全対集合の類似性を近似するために,新しい分散アルゴリズム LSF-Join を提案する。
LSF-Joinは、小さな類似度閾値やスキュー入力セットであっても、最も近いペアを効率的に見つける。
論文 参考訳(メタデータ) (2020-03-06T00:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。