論文の概要: A general framework for distributed approximate similarity search with arbitrary distances
- arxiv url: http://arxiv.org/abs/2405.13795v2
- Date: Wed, 07 Aug 2024 15:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 00:02:00.302131
- Title: A general framework for distributed approximate similarity search with arbitrary distances
- Title(参考訳): 任意の距離を持つ分布近似類似性探索のための一般フレームワーク
- Authors: Elena Garcia-Morato, Maria Jesus Algar, Cesar Alfaro, Felipe Ortega, Javier Gomez, Javier M. Moguerza,
- Abstract要約: 類似性検索は、情報管理や検索、データ分析といった領域における中心的な問題である。
多くの類似性探索アルゴリズムは、メートル法距離に設計または特に適応している。
本稿では,任意の距離を受け入れる分散近似類似性探索のフレームワークであるGDASCを提案する。
- 参考スコア(独自算出の注目度): 0.5030361857850012
- License:
- Abstract: Similarity search is a central problem in domains such as information management and retrieval or data analysis. Many similarity search algorithms are designed or specifically adapted to metric distances. Thus, they are unsuitable for alternatives like the cosine distance, which has become quite common, for example, with embeddings and in text mining. This paper presents GDASC (General Distributed Approximate Similarity search with Clustering), a general framework for distributed approximate similarity search that accepts arbitrary distances. This framework can build a multilevel index structure, by selecting a clustering algorithm, the number of prototypes in each cluster and any arbitrary distance function. As a result, this framework effectively overcomes the limitation of using metric distances and can address situations involving cosine similarity or other non-standard similarity measures. Experimental results using k-medoids clustering in GDASC with real datasets confirm the applicability of this approach for approximate similarity search, improving the performance of extant algorithms for this purpose.
- Abstract(参考訳): 類似性検索は、情報管理や検索、データ分析といった領域における中心的な問題である。
多くの類似性探索アルゴリズムは、メートル法距離に設計または特に適応している。
このように、それらは例えば埋め込みやテキストマイニングなど、非常に一般的なコサイン距離のような代替には適さない。
本稿では、任意の距離を受け入れる分散近似類似度探索のフレームワークであるGDASC(General Distributed Approximate similarity search with Clustering)を提案する。
このフレームワークはクラスタリングアルゴリズム,クラスタ内のプロトタイプ数,任意の距離関数を選択することで,マルチレベルインデックス構造を構築することができる。
結果として、この枠組みは計量距離の使用制限を効果的に克服し、コサイン類似性やその他の非標準類似性尺度を含む状況に対処することができる。
GDASCにおけるk-medoidsクラスタリングと実際のデータセットを用いた実験結果から,近似類似性探索へのアプローチの適用性が確認され,既存のアルゴリズムの性能が向上した。
関連論文リスト
- Enhancing Community Detection in Networks: A Comparative Analysis of Local Metrics and Hierarchical Algorithms [49.1574468325115]
本研究は,地域間類似度指標を用いた地域検出の関連性を評価するために,同じ手法を用いている。
これらの指標の有効性は,異なるコミュニティサイズを持つ複数の実ネットワークにベースアルゴリズムを適用して評価した。
論文 参考訳(メタデータ) (2024-08-17T02:17:09Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning [0.0]
我々は、混合カーネルを用いて異種性を測定するKDSUMと呼ばれる計量を提案する。
我々は、KDSUMが既存の混合型メトリクスから均一な異性度メトリクスへの縮小法であることを実証した。
論文 参考訳(メタデータ) (2023-06-02T19:51:48Z) - A Metaheuristic Algorithm for Large Maximum Weight Independent Set
Problems [58.348679046591265]
ノード重み付きグラフが与えられたとき、ノード重みが最大となる独立した(相互に非隣接な)ノードの集合を見つける。
このアプリケーションで放送されるグラフの中には、数十万のノードと数億のエッジを持つ大きなものもあります。
我々は,不規則なランダム化適応検索フレームワークにおいてメタヒューリスティックな新しい局所探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-03-28T21:34:16Z) - A density peaks clustering algorithm with sparse search and K-d tree [16.141611031128427]
この問題を解決するために,スパース探索とK-d木を用いた密度ピーククラスタリングアルゴリズムを開発した。
分散特性が異なるデータセット上で、他の5つの典型的なクラスタリングアルゴリズムと比較して実験を行う。
論文 参考訳(メタデータ) (2022-03-02T09:29:40Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - How to Design Robust Algorithms using Noisy Comparison Oracle [12.353002222958605]
メトリクスに基づく比較操作は、様々なクラスタリング技術の研究に基本的である。
本稿では,最接近探索,最接近探索,最接近探索など様々な問題について検討する。
k中心クラスタリングと凝集階層クラスタリングのためのロバストなアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-05-12T16:58:09Z) - Fuzzy clustering algorithms with distance metric learning and entropy
regularization [0.0]
本稿では,ユークリッド,シティブロック,マハラノビス距離とエントロピー正規化に基づくファジィクラスタリングアルゴリズムを提案する。
合成および実データセットに関するいくつかの実験は、ノイズの多い画像テクスチャセグメンテーションへの応用を含む、これらの適応クラスタリング手法の有用性を実証している。
論文 参考訳(メタデータ) (2021-02-18T18:19:04Z) - Similarity-based Distance for Categorical Clustering using Space
Structure [5.543220407902113]
我々は,分類データのオブジェクト間の距離を求めるために,新しい距離距離,類似度ベース距離(SBD)を提案している。
我々の提案した距離(SBD)は、分類データセットで使用する場合、k-modesや他のSBC型アルゴリズムのような既存のアルゴリズムよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-11-19T15:18:26Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Stable and consistent density-based clustering via multiparameter
persistence [77.34726150561087]
トポロジカルデータ解析による次数-リップス構成について考察する。
我々は,入力データの摂動に対する安定性を,通信間距離を用いて解析する。
私たちはこれらのメソッドを、Persistableと呼ばれる密度ベースのクラスタリングのためのパイプラインに統合します。
論文 参考訳(メタデータ) (2020-05-18T19:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。