論文の概要: Learning Cluster Representatives for Approximate Nearest Neighbor Search
- arxiv url: http://arxiv.org/abs/2412.05921v1
- Date: Sun, 08 Dec 2024 12:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:52:20.255079
- Title: Learning Cluster Representatives for Approximate Nearest Neighbor Search
- Title(参考訳): 近似近傍探索のためのクラスタ代表の学習
- Authors: Thomas Vecchiato,
- Abstract要約: この論文はクラスタリングに基づく近似近傍探索の包括的説明を提供する。
また、新しい最先端の手法のあらゆる側面を紹介し、掘り下げます。
この直感の発達と,それを内積探索の最大化に適用することにより,単純な線形関数を用いた学習クラスタ代表がクラスタリングに基づく近接探索の精度を大幅に向上させることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Developing increasingly efficient and accurate algorithms for approximate nearest neighbor search is a paramount goal in modern information retrieval. A primary approach to addressing this question is clustering, which involves partitioning the dataset into distinct groups, with each group characterized by a representative data point. By this method, retrieving the top-k data points for a query requires identifying the most relevant clusters based on their representatives -- a routing step -- and then conducting a nearest neighbor search within these clusters only, drastically reducing the search space. The objective of this thesis is not only to provide a comprehensive explanation of clustering-based approximate nearest neighbor search but also to introduce and delve into every aspect of our novel state-of-the-art method, which originated from a natural observation: The routing function solves a ranking problem, making the function amenable to learning-to-rank. The development of this intuition and applying it to maximum inner product search has led us to demonstrate that learning cluster representatives using a simple linear function significantly boosts the accuracy of clustering-based approximate nearest neighbor search.
- Abstract(参考訳): 近近距離探索のための効率的で正確なアルゴリズムの開発は、現代の情報検索における最重要目標である。
この問題に対処する主要なアプローチはクラスタリングであり、データセットを異なるグループに分割し、各グループは代表的なデータポイントによって特徴づけられる。
この方法により、クエリの上位kのデータポイントを取得するには、それらの代表者(ルーティングステップ)に基づいて最も関連性の高いクラスタを特定し、これらのクラスタ内で最も近い隣のサーチのみを実行する必要があるため、検索スペースが大幅に削減される。
本論文の目的は,クラスタリングに基づく近接近傍探索の包括的説明を提供するだけでなく,自然観測から得られた新しい最先端手法のすべての側面を取り入れ,探索することである。
この直感の発達と,それを内積探索の最大化に適用することにより,単純な線形関数を用いた学習クラスタ代表がクラスタリングに基づく近接探索の精度を大幅に向上させることを示した。
関連論文リスト
- Group Testing for Accurate and Efficient Range-Based Near Neighbor Search for Plagiarism Detection [2.3814052021083354]
本研究は, 近接探索問題に対する適応型群検定フレームワークを提案する。
本研究では,データベース内の各項目を問合せ点の隣人あるいは非隣人として,余剰距離閾値に基づいて効率よくマークする。
本研究では,ソフトマックスに基づく特徴量を用いて,完全探索よりも10倍以上の高速化を実現し,精度を損なわないことを示す。
論文 参考訳(メタデータ) (2023-11-05T06:12:03Z) - Towards Personalized Preprocessing Pipeline Search [52.59156206880384]
ClusterP3Sは、Clusteringを介してパイプライン検索をパーソナライズする新しいフレームワークである。
本稿では,クラスタを協調的に学習し,最適なパイプラインを探索するための階層的探索手法を提案する。
ベンチマーク分類データセットの実験では、機能的に前処理可能なパイプライン探索の有効性が示されている。
論文 参考訳(メタデータ) (2023-02-28T05:45:05Z) - Cluster Explanation via Polyhedral Descriptions [0.0]
クラスタリングは教師なしの学習問題であり、競合しないデータポイントを同様の機能を持つグループに分割することを目的としている。
従来のクラスタリングアルゴリズムは、グループ割り当ての解釈可能性ではなく、正確性に重点を置いているため、グループに対する限られた洞察を提供する。
本稿では,各クラスタのまわりにポリヘドラを配置し,結果として生じるポリヘドラの複雑さを最小化して,クラスタを説明するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:26:44Z) - Natural Hierarchical Cluster Analysis by Nearest Neighbors with
Near-Linear Time Complexity [0.0]
そこで本研究では,クラスタの自然な階層化を実現する,近接クラスタリングアルゴリズムを提案する。
集約的および分割的階層的クラスタリングアルゴリズムとは対照的に,我々のアプローチはアルゴリズムの反復的な動作に依存しない。
論文 参考訳(メタデータ) (2022-03-15T16:03:42Z) - Hierarchical clustering by aggregating representatives in
sub-minimum-spanning-trees [5.877624540482919]
本稿では,クラスタリングデンドログラムを構築しながら,代表点を効果的に検出できる階層的クラスタリングアルゴリズムを提案する。
解析の結果,提案アルゴリズムはO(nlogn)時間複雑度とO(nlogn)空間複雑度を有し,大規模データ処理のスケーラビリティを示す。
論文 参考訳(メタデータ) (2021-11-11T07:36:55Z) - Correlation Clustering Reconstruction in Semi-Adversarial Models [70.11015369368272]
相関クラスタリングは多くのアプリケーションにおいて重要なクラスタリング問題である。
本研究では,ランダムノイズや対向的な修正によって崩壊した潜伏クラスタリングを再構築しようとする,この問題の再構築版について検討する。
論文 参考訳(メタデータ) (2021-08-10T14:46:17Z) - How to Design Robust Algorithms using Noisy Comparison Oracle [12.353002222958605]
メトリクスに基づく比較操作は、様々なクラスタリング技術の研究に基本的である。
本稿では,最接近探索,最接近探索,最接近探索など様々な問題について検討する。
k中心クラスタリングと凝集階層クラスタリングのためのロバストなアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-05-12T16:58:09Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z) - Adversarial Examples for $k$-Nearest Neighbor Classifiers Based on
Higher-Order Voronoi Diagrams [69.4411417775822]
逆例は機械学習モデルにおいて広く研究されている現象である。
そこで本研究では,$k$-nearest 近傍分類の逆ロバスト性を評価するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:49:10Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。