論文の概要: Unimodal Strategies in Density-Based Clustering
- arxiv url: http://arxiv.org/abs/2506.21695v1
- Date: Thu, 26 Jun 2025 18:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.971585
- Title: Unimodal Strategies in Density-Based Clustering
- Title(参考訳): 密度クラスタリングにおける一様戦略
- Authors: Oron Nir, Jay Tenenbaum, Ariel Shamir,
- Abstract要約: 本研究では, クラスタ数とコア点近傍半径の関係について, 密度に基づくクラスタリング法に固有の重要な特性を明らかにする。
我々はこの特性を利用して、三進探索アルゴリズムに基づいて、半径の適切な値を求めるための新しい戦略を考案する。
我々は,高次元,大規模NLP,オーディオ,コンピュータビジョンのタスクにまたがる広範囲な応用を通して方法論を検証する。
- 参考スコア(独自算出の注目度): 15.581610184349731
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Density-based clustering methods often surpass centroid-based counterparts, when addressing data with noise or arbitrary data distributions common in real-world problems. In this study, we reveal a key property intrinsic to density-based clustering methods regarding the relation between the number of clusters and the neighborhood radius of core points - we empirically show that it is nearly unimodal, and support this claim theoretically in a specific setting. We leverage this property to devise new strategies for finding appropriate values for the radius more efficiently based on the Ternary Search algorithm. This is especially important for large scale data that is high-dimensional, where parameter tuning is computationally intensive. We validate our methodology through extensive applications across a range of high-dimensional, large-scale NLP, Audio, and Computer Vision tasks, demonstrating its practical effectiveness and robustness. This work not only offers a significant advancement in parameter control for density-based clustering but also broadens the understanding regarding the relations between their guiding parameters. Our code is available at https://github.com/oronnir/UnimodalStrategies.
- Abstract(参考訳): 密度に基づくクラスタリング手法は、実世界の問題に共通するノイズや任意のデータ分布に対処するときに、セントロイドベースの手法を超えることが多い。
本研究では,クラスタ数とコア点近傍半径の関係について,密度に基づくクラスタリング法に固有の重要な特性を明らかにした。
我々はこの特性を利用して、三進探索アルゴリズムに基づいて、半径の適切な値を求めるための新しい戦略を考案する。
これは特に、パラメータチューニングが計算集約的な高次元の大規模データにとって重要である。
我々は,高次元,大規模NLP,オーディオ,コンピュータビジョンのタスクにまたがる広範囲な応用を通して方法論を検証し,その実用性と堅牢性を実証した。
この研究は、密度に基づくクラスタリングのためのパラメータ制御の大幅な進歩を提供するだけでなく、それらのパラメータ間の関係に関する理解を深める。
私たちのコードはhttps://github.com/oronnir/UnimodalStrategies.comで利用可能です。
関連論文リスト
- Depth-Based Local Center Clustering: A Framework for Handling Different Clustering Scenarios [46.164361878412656]
クラスター分析は多くの科学・工学分野において重要な役割を担っている。
過去数十年にわたって提案されてきたクラスタリングメソッドにもかかわらず、それぞれのメソッドは通常、特定のシナリオのために設計されている。
本稿では,深度に基づくクラスタリング(DLCC)を提案する。
DLCCはデータのサブセットに基づくデータ深度のローカルバージョンを利用する
論文 参考訳(メタデータ) (2025-05-14T16:08:11Z) - Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - TNStream: Applying Tightest Neighbors to Micro-Clusters to Define Multi-Density Clusters in Streaming Data [1.2016321065590192]
本稿では,Tightest Neighbors の概念に基づくクラスタリングアルゴリズムを提案し,Skeleton Set に基づくデータストリームクラスタリング理論を提案する。
これらの理論に基づいて,完全オンラインアルゴリズムであるTNStreamを開発した。
実験により,マルチ密度データのクラスタリング品質向上効果と,提案したデータストリームクラスタリング理論の有効性が示された。
論文 参考訳(メタデータ) (2025-05-01T07:15:20Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - DECWA : Density-Based Clustering using Wasserstein Distance [1.4132765964347058]
空間密度と確率的アプローチに基づく新しいクラスタリングアルゴリズムを提案する。
提案手法は, 様々なデータセットにおいて, 最先端の密度に基づくクラスタリング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-25T11:10:08Z) - Density-Based Clustering with Kernel Diffusion [59.4179549482505]
単位$d$次元ユークリッド球のインジケータ関数に対応するナイーブ密度は、密度に基づくクラスタリングアルゴリズムで一般的に使用される。
局所分布特性と滑らかさの異なるデータに適応する新しいカーネル拡散密度関数を提案する。
論文 参考訳(メタデータ) (2021-10-11T09:00:33Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。