論文の概要: Benchmarking Filtered Approximate Nearest Neighbor Search Algorithms on Transformer-based Embedding Vectors
- arxiv url: http://arxiv.org/abs/2507.21989v1
- Date: Tue, 29 Jul 2025 16:39:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.751857
- Title: Benchmarking Filtered Approximate Nearest Neighbor Search Algorithms on Transformer-based Embedding Vectors
- Title(参考訳): 変圧器を用いた埋め込みベクトルを用いた近似近傍探索アルゴリズムのベンチマーク
- Authors: Patrick Iff, Paul Bruegger, Marcin Chrapek, Maciej Besta, Torsten Hoefler,
- Abstract要約: Filtered Approximate Nearest Neighbor Search (FANNS) は、フィルタされた近似Nearest Neighbor Search (FANNS) と呼ばれる問題である。
本稿では, FANNS手法の総合的な調査と分類について紹介し, それらが文献でどのようにベンチマークされているか分析する。
本稿では、arXivリポジトリから270万以上の研究論文を要約したベクトルを埋め込んだ新しいデータセットについて紹介する。
- 参考スコア(独自算出の注目度): 18.796661826646616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in embedding models for text, image, audio, and video drive progress across multiple domains, including retrieval-augmented generation, recommendation systems, vehicle/person reidentification, and face recognition. Many applications in these domains require an efficient method to retrieve items that are close to a given query in the embedding space while satisfying a filter condition based on the item's attributes, a problem known as Filtered Approximate Nearest Neighbor Search (FANNS). In this work, we present a comprehensive survey and taxonomy of FANNS methods and analyze how they are benchmarked in the literature. By doing so, we identify a key challenge in the current FANNS landscape: the lack of diverse and realistic datasets, particularly ones derived from the latest transformer-based text embedding models. To address this, we introduce a novel dataset consisting of embedding vectors for the abstracts of over 2.7 million research articles from the arXiv repository, accompanied by 11 real-world attributes such as authors and categories. We benchmark a wide range of FANNS methods on our novel dataset and find that each method has distinct strengths and limitations; no single approach performs best across all scenarios. ACORN, for example, supports various filter types and performs reliably across dataset scales but is often outperformed by more specialized methods. SeRF shows excellent performance for range filtering on ordered attributes but cannot handle categorical attributes. Filtered-DiskANN and UNG excel on the medium-scale dataset but fail on the large-scale dataset, highlighting the challenge posed by transformer-based embeddings, which are often more than an order of magnitude larger than earlier embeddings. We conclude that no universally best method exists.
- Abstract(参考訳): テキスト、画像、オーディオ、ビデオドライブの埋め込みモデルの進歩は、検索強化世代、レコメンデーションシステム、車と人物の再識別、顔認識など、複数の領域にわたって進歩している。
これらの領域の多くのアプリケーションは、アイテムの属性に基づいてフィルタ条件を満たすとともに、埋め込み空間で与えられたクエリに近いアイテムを検索する効率的な方法を必要としている。
本研究では, FANNS手法の総合的な調査と分類について紹介し, それらが文献でどのようにベンチマークされているか分析する。
これにより、現在のFANNSランドスケープにおける重要な課題、特に最新のトランスフォーマーベースのテキスト埋め込みモデルから派生した、多様で現実的なデータセットの欠如を特定します。
そこで本研究では、arXivリポジトリから270万以上の研究論文を要約したベクトルを埋め込んだ新しいデータセットについて紹介する。
我々は、新しいデータセット上で幅広いFANNS手法をベンチマークし、各手法が異なる長所と短所を持っていることを発見した。
例えば、ACORNはさまざまなフィルタタイプをサポートし、データセットスケールにわたって確実に機能するが、多くの場合、より特殊なメソッドによってパフォーマンスが向上する。
SeRFは、順序付けられた属性に対するレンジフィルタリングに優れた性能を示すが、分類的属性は扱えない。
Filtered-DiskANNとUNGは、中規模のデータセットでは優れていますが、大規模なデータセットではフェールします。
我々は、普遍的に最良の方法が存在しないと結論づける。
関連論文リスト
- Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - MUSS: Multilevel Subset Selection for Relevance and Diversity [4.8254343133177295]
レコメンデーションシステムでは、さまざまなレコメンデーションを提供しながら、関連する項目を選択することに興味がある。
本稿では,このタイプの問題を解析するための新しい理論的アプローチを提案し,その手法が最適目的の定数係数近似を実現することを示す。
論文 参考訳(メタデータ) (2025-03-14T06:37:17Z) - RQFormer: Rotated Query Transformer for End-to-End Oriented Object Detection [26.37802649901314]
オブジェクト指向オブジェクト検出は、複数の向き、様々なスケール、密度分布を持つオブジェクトインスタンスの存在により、困難なタスクを呈する。
本稿では、2つの重要な技術を統合するRotated Query Transformerと呼ばれるエンドツーエンド指向型検出器を提案する。
4つのリモートセンシングデータセットと1つのシーンテキストデータセットを用いて実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-11-29T13:43:17Z) - Group Testing for Accurate and Efficient Range-Based Near Neighbor Search for Plagiarism Detection [2.3814052021083354]
本研究は, 近接探索問題に対する適応型群検定フレームワークを提案する。
本研究では,データベース内の各項目を問合せ点の隣人あるいは非隣人として,余剰距離閾値に基づいて効率よくマークする。
本研究では,ソフトマックスに基づく特徴量を用いて,完全探索よりも10倍以上の高速化を実現し,精度を損なわないことを示す。
論文 参考訳(メタデータ) (2023-11-05T06:12:03Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Tradeoffs in Sentence Selection Techniques for Open-Domain Question
Answering [54.541952928070344]
文選択のためのモデルの2つのグループについて述べる。QAベースのアプローチは、解答候補を特定するための完全なQAシステムを実行し、検索ベースのモデルは、各質問に特に関連する各節の一部を見つける。
非常に軽量なQAモデルは、このタスクではうまく機能するが、検索ベースモデルは高速である。
論文 参考訳(メタデータ) (2020-09-18T23:39:15Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。