Fugu-MT 論文翻訳(概要): Worst-case Performance of Popular Approximate Nearest Neighbor Search Implementations: Guarantees and Limitations

論文の概要: Worst-case Performance of Popular Approximate Nearest Neighbor Search Implementations: Guarantees and Limitations

arxiv url: http://arxiv.org/abs/2310.19126v1
Date: Sun, 29 Oct 2023 19:25:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 14:11:13.152559
Title: Worst-case Performance of Popular Approximate Nearest Neighbor Search Implementations: Guarantees and Limitations
Title（参考訳）: 一般近似近傍探索実装の最悪の性能:保証と制限
Authors: Piotr Indyk, Haike Xu
Abstract要約: グラフに基づく近似近傍探索アルゴリズムの最悪の性能について検討する。 DiskANNの場合、その"スロープリプロセッシング"バージョンは、ほぼ近隣の検索クエリを確実にサポートしている。本稿では,「理にかなった」精度を達成するのに要する経験的なクエリ時間が,インスタンスサイズにおいて線形であるインスタンス群を提案する。
参考スコア（独自算出の注目度）: 20.944914202453962
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Graph-based approaches to nearest neighbor search are popular and powerful tools for handling large datasets in practice, but they have limited theoretical guarantees. We study the worst-case performance of recent graph-based approximate nearest neighbor search algorithms, such as HNSW, NSG and DiskANN. For DiskANN, we show that its "slow preprocessing" version provably supports approximate nearest neighbor search query with constant approximation ratio and poly-logarithmic query time, on data sets with bounded "intrinsic" dimension. For the other data structure variants studied, including DiskANN with "fast preprocessing", HNSW and NSG, we present a family of instances on which the empirical query time required to achieve a "reasonable" accuracy is linear in instance size. For example, for DiskANN, we show that the query procedure can take at least $0.1 n$ steps on instances of size $n$ before it encounters any of the $5$ nearest neighbors of the query.
Abstract（参考訳）: グラフベースの近接探索アプローチは、大規模データセットを実際に扱うための人気があり強力なツールであるが、理論上の保証は限られている。本稿では,HNSW,NSG,DiskANNなどのグラフベース近傍探索アルゴリズムの最悪の性能について検討する。 DiskANNの場合、「スロープリプロセッシング」バージョンは、有界な「内在的」次元のデータセット上で、近似比が一定であり、多対数的なクエリ時間を持つ近傍の探索クエリを確実にサポートする。高速プリプロセッシングを備えたDiskANNやHNSW,NSGなどの他のデータ構造変種について,"理にかなった"精度を達成するのに必要な経験的クエリ時間が,インスタンスサイズで線形であることを示す。例えば、 diskann の場合、クエリプロシージャは、クエリの最も近い5ドルの近傍のいずれかに遭遇する前に、サイズが$n$ のインスタンスに対して少なくとも$0.1 n$ のステップを取ることができる。

関連論文リスト

Envy-Free Allocation of Indivisible Goods via Noisy Queries [66.16311857301167]
エージェントのバリュエーションを直接観察できない、かなり分割不可能な商品を割り当てる問題を導入する。本手法では,要求されるクエリ数の上限値と上限値の上限値を求める。我々の上限は、非適応的なクエリと計算時間で実行される単純なしきい値に基づくアロケーションアルゴリズムに基づいている。
論文参考訳（メタデータ） (2026-02-06T03:44:40Z)
δ-EMG: A Monotonic Graph Index for Approximate Nearest Neighbor Search [33.62724124122037]
本稿では,クエリ時における近似精度を制御する誤り境界付きANN探索アルゴリズムを提案する。 0.99のリコール条件下では、SIFT1Mデータセット上で19,000QPSを達成し、他の手法よりも40%以上性能が向上する。
論文参考訳（メタデータ） (2025-11-21T03:20:54Z)
Scalable k-Means Clustering for Large k via Seeded Approximate Nearest-Neighbor Search [0.6144680854063939]
非常に大きな$k$の場合、高次元で107sim109$ポイントの大規模データセットを高速にクラスタリングする方法を検討する。この問題に対する現在の実用的なメソッドには、少なくとも$Omega(k2)$のランタイムがある。提案手法は, 提案手法として"Seeded Approximate Nearest-Neighbor Search"を提案する。
論文参考訳（メタデータ） (2025-02-10T05:22:08Z)
Adaptive $k$-nearest neighbor classifier based on the local estimation of the shape operator [49.87315310656657]
我々は, 局所曲率をサンプルで探索し, 周辺面積を適応的に定義する適応型$k$-nearest(kK$-NN)アルゴリズムを提案する。多くの実世界のデータセットから、新しい$kK$-NNアルゴリズムは、確立された$k$-NN法と比較してバランスの取れた精度が優れていることが示されている。
論文参考訳（メタデータ） (2024-09-08T13:08:45Z)
Early Exit Strategies for Approximate k-NN Search in Dense Retrieval [10.48678957367324]
アーリーエグジットのための最先端のA-kNNを構築し,忍耐の概念に基づく教師なし手法を提案する。我々は,A-kNNの効率を最大5倍の高速化で向上すると同時に,無視可能な効率損失を達成できることを示す。
論文参考訳（メタデータ） (2024-08-09T10:17:07Z)
Group Testing for Accurate and Efficient Range-Based Near Neighbor Search for Plagiarism Detection [2.3814052021083354]
本研究は, 近接探索問題に対する適応型群検定フレームワークを提案する。本研究では,データベース内の各項目を問合せ点の隣人あるいは非隣人として,余剰距離閾値に基づいて効率よくマークする。本研究では,ソフトマックスに基づく特徴量を用いて,完全探索よりも10倍以上の高速化を実現し,精度を損なわないことを示す。
論文参考訳（メタデータ） (2023-11-05T06:12:03Z)
A Theoretical Analysis Of Nearest Neighbor Search On Approximate Near Neighbor Graph [51.880164098926166]
グラフベースのアルゴリズムは、近隣探索(NN-Search)問題において最先端の性能を示す。グラフベースのNN-Searchアルゴリズムには実践と理論のギャップがある。低次元および高密度ベクトルに対する ANN-Graph 上の欲求探索による NN-Search の解法を理論的に保証する。
論文参考訳（メタデータ） (2023-03-10T21:18:34Z)
Differentially-Private Hierarchical Clustering with Provable Approximation Guarantees [79.59010418610625]
階層クラスタリングのための微分プライベート近似アルゴリズムについて検討する。例えば、$epsilon$-DPアルゴリズムは入力データセットに対して$O(|V|2/epsilon)$-additiveエラーを示さなければならない。本稿では,ブロックを正確に復元する1+o(1)$近似アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-31T19:14:30Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
FINGER: Fast Inference for Graph-based Approximate Nearest Neighbor Search [20.928821121591493]
効率的なグラフ探索を実現するための高速推論手法であるFINGERを提案する。 FINGERは、近傍の残差ベクトルと低ランク基底と分布マッチングとの角度を推定することで距離関数を近似する。実証的に、FINGERによるHNSWと呼ばれるグラフベースの手法の高速化は、異なるベンチマークデータセット間で既存のグラフベースの手法を20%から60%上回っている。
論文参考訳（メタデータ） (2022-06-22T22:30:46Z)
IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文参考訳（メタデータ） (2021-03-17T23:13:25Z)
Leveraging Reinforcement Learning for evaluating Robustness of KNN Search Algorithms [0.0]
与えられたクエリポイントのデータセットでk-nearestの隣人を見つける問題は、数年前から解決されてきた。本稿では,K-Nearest Neighbor Search(K-Nearest Neighbor Search)の手法について,計算の視点から検討する。本論文では,KNNSアプローチの対敵点に対する堅牢性を評価するために,汎用的な強化学習ベースのフレームワークを提案する。
論文参考訳（メタデータ） (2021-02-10T16:10:58Z)
Adversarial Examples for $k$-Nearest Neighbor Classifiers Based on Higher-Order Voronoi Diagrams [69.4411417775822]
逆例は機械学習モデルにおいて広く研究されている現象である。そこで本研究では,$k$-nearest 近傍分類の逆ロバスト性を評価するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-11-19T08:49:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。