論文の概要: ANN Search: Recall What Matters
- arxiv url: http://arxiv.org/abs/2606.04522v1
- Date: Wed, 03 Jun 2026 07:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.596638
- Title: ANN Search: Recall What Matters
- Title(参考訳): ANN検索:重要なことを思い出す
- Authors: Dimitris Dimitropoulos, Nikos Mamoulis,
- Abstract要約: ANN検索で本当に重要なのは、検索結果の品質であって、真のkNNセットと重なるものではない、と我々は主張する。
Recall@kを使って検索品質を評価すると、計算オーバーヘッドが不要になり、1/Ratio@kで置き換えることを調べる。
- 参考スコア(独自算出の注目度): 4.692400531340393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Approximate nearest neighbor (ANN) search has become a core primitive in information retrieval and modern machine learning tasks, from classification to retrieval-augmented generation. The community evaluates and tunes ANN algorithms primarily on their throughput at a given Recall@k, the fraction of true exact neighbors retrieved. We argue that what really matters in ANN search is the quality of the retrieved results and not their overlap with the true kNN set. We show that using Recall@k to assess retrieval quality forces unnecessary computational overhead and investigate replacing it by 1/Ratio@k, the inverse approximation ratio. 1/Ratio@k evaluates the differences between the distances of the retrieved and true neighbors. It is judge-free, hyperparameter-free, and computable from standard ANN benchmark inputs alone. We benchmark state-of-the-art ANN algorithms across diverse datasets spanning a wide range of intrinsic dimensionalities, evaluating the two metrics comprehensively across efficiency, downstream classification, and retrieval-augmented generation. On the efficiency axis, optimizing for 1/Ratio@k reaches operational quality thresholds at a substantially lower computational cost than Recall@k. In downstream tasks, performance indicators (label precision, semantic similarity, BERTScore, and LLM-graded quality) remain highly stable even when Recall@k drops significantly. The inverse approximation ratio, on the other hand, closely mirrors this stability, tracking true utility much better than Recall@k. Ultimately, while Recall@k overstates the true cost of approximation, 1/Ratio@k offers a more accurate, deployable proxy for actual ANN quality.
- Abstract(参考訳): 近似近傍探索(ANN)は,情報検索や最新の機械学習タスクにおいて,分類から検索強化生成に至るまで,中核となるプリミティブとなっている。
コミュニティは、ANNアルゴリズムを、与えられたRecall@kのスループットに基づいて評価し、チューニングする。
ANN検索で本当に重要なのは、検索結果の品質であって、真のkNNセットと重なるものではない、と我々は主張する。
本稿では,Recall@kを用いて検索品質を評価することで,計算オーバーヘッドを不要にし,逆近似比である1/Ratio@kで置き換えることを検討する。
1/Ratio@kは、検索された隣人と真の隣人の距離の違いを評価する。
判定不要で、ハイパーパラメータフリーで、標準のANNベンチマークの入力のみから計算可能である。
我々は、さまざまな固有次元にまたがる多様なデータセットにまたがる最先端のANNアルゴリズムをベンチマークし、その2つのメトリクスを効率、下流分類、検索拡張生成に網羅的に評価する。
効率軸では、1/Ratio@kの最適化は、Recall@kよりもかなり低い計算コストで運用品質閾値に達する。
ダウンストリームタスクでは、パフォーマンスインジケータ(ラベル精度、セマンティック類似性、BERTScore、LLMグレード品質)は、Recall@kが大幅に低下しても、非常に安定している。
一方、逆近似比は、この安定性を密接に反映し、Recall@kよりも真のユーティリティを追跡する。
最終的に、Recall@kは近似の真のコストを誇張するが、1/Ratio@kは実際のANN品質をより正確でデプロイ可能なプロキシを提供する。
関連論文リスト
- Efficient Benchmarking Is Just Feature Selection and Multiple Regression [7.933223290730552]
既存のベンチマーク手法は、予測段階で単にカーネルリッジレグレッションを使用することで、大幅に改善することができる。
我々は,mRMR (Minimum Dundancy maximum Relevance) と呼ばれる情報理論的特徴選択アルゴリズムを用いて,予測に最適な質問サブセットを選択する。
論文 参考訳(メタデータ) (2026-05-25T12:23:31Z) - From HNSW to Information-Theoretic Binarization: Rethinking the Architecture of Scalable Vector Search [0.7804710977378487]
本稿では,支配的な"HNSW + float32 + cosine similarity"スタックのアーキテクチャ的制約を分析する。
最大情報二項化(MIB)に基づく代替情報理論アーキテクチャの導入と実証評価を行った。
その結果,完全精度のシステムに匹敵する検索品質を示すとともに,レイテンシを大幅に低減し,高い要求レートで一定のスループットを維持することができた。
論文 参考訳(メタデータ) (2025-12-16T23:24:37Z) - δ-EMG: A Monotonic Graph Index for Approximate Nearest Neighbor Search [33.62724124122037]
本稿では,クエリ時における近似精度を制御する誤り境界付きANN探索アルゴリズムを提案する。
0.99のリコール条件下では、SIFT1Mデータセット上で19,000QPSを達成し、他の手法よりも40%以上性能が向上する。
論文 参考訳(メタデータ) (2025-11-21T03:20:54Z) - LoRANN: Low-Rank Matrix Factorization for Approximate Nearest Neighbor Search [4.194768796374315]
本稿では,内積近似が多出力回帰問題であることを示す観測に基づく新しい教師付きスコア計算法を提案する。
実験の結果,提案手法はクエリ待ち時間とメモリ使用量の両方においてPQよりも優れていることがわかった。
また,クラスタリングに基づくANNライブラリであるLoRANNを導入する。
論文 参考訳(メタデータ) (2024-10-24T17:13:39Z) - A Pairwise Comparison Relation-assisted Multi-objective Evolutionary Neural Architecture Search Method with Multi-population Mechanism [56.09418231453024]
ニューラルアーキテクチャサーチ(NAS)により、研究者は広大なサーチスペースを自動的に探索し、効率的なニューラルネットワークを見つけることができる。
NASは重要なボトルネックに悩まされており、探索プロセス中に多くのアーキテクチャを評価する必要がある。
SMEM-NASは,多集団構造に基づく相互比較比較支援型多目的進化アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-22T12:46:22Z) - Efficient k-NN Search with Cross-Encoders using Adaptive Multi-Round CUR
Decomposition [77.4863142882136]
クロスエンコーダモデルは、直接k-nearest neighbor(k-NN)サーチには不当に高価である。
本稿では,現実的に重要なトップk近傍の近似誤差を適応的に,反復的に,効率的に最小化するADACURを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:01:17Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。