論文の概要: A Parametrizable Algorithm for Distributed Approximate Similarity Search with Arbitrary Distances
- arxiv url: http://arxiv.org/abs/2405.13795v3
- Date: Fri, 11 Apr 2025 15:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:14:52.500540
- Title: A Parametrizable Algorithm for Distributed Approximate Similarity Search with Arbitrary Distances
- Title(参考訳): 任意距離を用いた分散近似類似性探索のためのパラメトリザブルアルゴリズム
- Authors: Elena Garcia-Morato, Maria Jesus Algar, Cesar Alfaro, Felipe Ortega, Javier Gomez, Javier M. Moguerza,
- Abstract要約: PDASC(Parametrizable Distributed Approximate similarity Search with Clustering)を提案する。
PDASCは、分散データ環境での運用や、異なるトポロジで定義されたデータセットの処理に適していることを示す。
- 参考スコア(独自算出の注目度): 0.5030361857850012
- License:
- Abstract: Recent studies have explored alternative distance measures for similarity search in spaces with diverse topologies, emphasizing the importance of selecting an appropriate distance function to improve the performance of k-Nearest Neighbour search algorithms. However, a critical gap remains in accommodating such diverse similarity measures, as most existing methods for exact or approximate similarity search are explicitly designed for metric spaces. To address this need, we propose PDASC (Parametrizable Distributed Approximate Similarity Search with Clustering), a novel Approximate Nearest Neighbour search algorithm. PDASC combines an innovative multilevel indexing structure particularly adept at managing outliers, highly imbalanced datasets, and sparse data distributions, with the flexibility to support arbitrary distance functions achieved through the integration of clustering algorithms that inherently accommodate them. Experimental results show that PDASC constitutes a reliable ANN search method, suitable for operating in distributed data environments and for handling datasets defined in different topologies, where the selection of the most appropriate distance function is often non-trivial.
- Abstract(参考訳): 近年, k-Nearest Neighbour 探索アルゴリズムの性能向上のために, 様々な位相を持つ空間における類似度探索のための代替距離測度について検討している。
しかし、正確な類似度探索や近似類似度探索のための既存の方法の多くは、計量空間に対して明示的に設計されているため、このような多様な類似度対策の調整において重要なギャップが残っている。
そこで我々はPDASC(Parametrizable Distributed Approximate similarity Search with Clustering)を提案する。
PDASCは、特に外れ値、高度に不均衡なデータセット、スパースなデータ分散を管理するのに適した革新的なマルチレベルインデックス構造と、それに対応するクラスタリングアルゴリズムの統合によって達成される任意の距離関数をサポートする柔軟性を組み合わせている。
実験結果から,PDASCは分散データ環境での運用や,最も適切な距離関数の選択が非自明であるような,異なるトポロジで定義されたデータセットの処理に適した信頼性の高いANN探索手法であることがわかった。
関連論文リスト
- Measuring similarity between embedding spaces using induced neighborhood graphs [10.056989400384772]
本稿では,ペアの項目表現の類似性を評価するための指標を提案する。
この結果から,類似度とゼロショット分類タスクの精度が類似度と相関していることが示唆された。
論文 参考訳(メタデータ) (2024-11-13T15:22:33Z) - Enhancing Community Detection in Networks: A Comparative Analysis of Local Metrics and Hierarchical Algorithms [49.1574468325115]
本研究は,地域間類似度指標を用いた地域検出の関連性を評価するために,同じ手法を用いている。
これらの指標の有効性は,異なるコミュニティサイズを持つ複数の実ネットワークにベースアルゴリズムを適用して評価した。
論文 参考訳(メタデータ) (2024-08-17T02:17:09Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning [0.0]
我々は、混合カーネルを用いて異種性を測定するKDSUMと呼ばれる計量を提案する。
我々は、KDSUMが既存の混合型メトリクスから均一な異性度メトリクスへの縮小法であることを実証した。
論文 参考訳(メタデータ) (2023-06-02T19:51:48Z) - A Metaheuristic Algorithm for Large Maximum Weight Independent Set
Problems [58.348679046591265]
ノード重み付きグラフが与えられたとき、ノード重みが最大となる独立した(相互に非隣接な)ノードの集合を見つける。
このアプリケーションで放送されるグラフの中には、数十万のノードと数億のエッジを持つ大きなものもあります。
我々は,不規則なランダム化適応検索フレームワークにおいてメタヒューリスティックな新しい局所探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-03-28T21:34:16Z) - A density peaks clustering algorithm with sparse search and K-d tree [16.141611031128427]
この問題を解決するために,スパース探索とK-d木を用いた密度ピーククラスタリングアルゴリズムを開発した。
分散特性が異なるデータセット上で、他の5つの典型的なクラスタリングアルゴリズムと比較して実験を行う。
論文 参考訳(メタデータ) (2022-03-02T09:29:40Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - Fuzzy clustering algorithms with distance metric learning and entropy
regularization [0.0]
本稿では,ユークリッド,シティブロック,マハラノビス距離とエントロピー正規化に基づくファジィクラスタリングアルゴリズムを提案する。
合成および実データセットに関するいくつかの実験は、ノイズの多い画像テクスチャセグメンテーションへの応用を含む、これらの適応クラスタリング手法の有用性を実証している。
論文 参考訳(メタデータ) (2021-02-18T18:19:04Z) - Similarity-based Distance for Categorical Clustering using Space
Structure [5.543220407902113]
我々は,分類データのオブジェクト間の距離を求めるために,新しい距離距離,類似度ベース距離(SBD)を提案している。
我々の提案した距離(SBD)は、分類データセットで使用する場合、k-modesや他のSBC型アルゴリズムのような既存のアルゴリズムよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-11-19T15:18:26Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Stable and consistent density-based clustering via multiparameter
persistence [77.34726150561087]
トポロジカルデータ解析による次数-リップス構成について考察する。
我々は,入力データの摂動に対する安定性を,通信間距離を用いて解析する。
私たちはこれらのメソッドを、Persistableと呼ばれる密度ベースのクラスタリングのためのパイプラインに統合します。
論文 参考訳(メタデータ) (2020-05-18T19:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。