論文の概要: How to optimize K-means?
- arxiv url: http://arxiv.org/abs/2503.19324v1
- Date: Tue, 25 Mar 2025 03:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:54:34.525823
- Title: How to optimize K-means?
- Title(参考訳): K-meansの最適化方法
- Authors: Qi Li,
- Abstract要約: センターベースのクラスタリングアルゴリズム(例えばK平均)はクラスタリングタスクに人気があるが、通常は複雑なデータセットで高い精度を達成するのに苦労する。
主な理由は、従来のセンターベースのクラスタリングアルゴリズムが、クラスタ内のクラスタリングセンターを1つだけ特定しているからです。
そこで本研究では,ECACと呼ばれる汎用最適化手法を提案し,異なる中心型クラスタリングアルゴリズムを最適化する。
- 参考スコア(独自算出の注目度): 8.206124331448931
- License:
- Abstract: Center-based clustering algorithms (e.g., K-means) are popular for clustering tasks, but they usually struggle to achieve high accuracy on complex datasets. We believe the main reason is that traditional center-based clustering algorithms identify only one clustering center in each cluster. Once the distribution of the dataset is complex, a single clustering center cannot strongly represent distant objects within the cluster. How to optimize the existing center-based clustering algorithms will be valuable research. In this paper, we propose a general optimization method called ECAC, and it can optimize different center-based clustering algorithms. ECAC is independent of the clustering principle and is embedded as a component between the center process and the category assignment process of center-based clustering algorithms. Specifically, ECAC identifies several extended-centers for each clustering center. The extended-centers will act as relays to expand the representative capability of the clustering center in the complex cluster, thus improving the accuracy of center-based clustering algorithms. We conducted numerous experiments to verify the robustness and effectiveness of ECAC. ECAC is robust to diverse datasets and diverse clustering centers. After ECAC optimization, the accuracy (NMI as well as RI) of center-based clustering algorithms improves by an average of 33.4% and 64.1%, respectively, and even K-means accurately identifies complex-shaped clusters.
- Abstract(参考訳): センターベースのクラスタリングアルゴリズム(例えばK平均)はクラスタリングタスクに人気があるが、複雑なデータセットで高い精度を達成するのに苦労する。
主な理由は、従来のセンターベースのクラスタリングアルゴリズムが、クラスタ内のクラスタリングセンターを1つだけ特定しているからです。
データセットの分布が複雑になると、単一のクラスタリングセンタはクラスタ内の遠くのオブジェクトを強く表現することはできない。
既存のセンターベースのクラスタリングアルゴリズムを最適化する方法は、貴重な研究だ。
本稿では、ECACと呼ばれる汎用最適化手法を提案し、異なるセンターベースのクラスタリングアルゴリズムを最適化する。
ECACはクラスタリングの原則とは独立しており、センタープロセスとセンターベースのクラスタリングアルゴリズムのカテゴリ割り当てプロセスのコンポーネントとして組み込まれている。
具体的には、ECACはクラスタリングセンタ毎に複数の拡張センタを識別する。
拡張センタは、複雑なクラスタ内のクラスタリングセンタの代表的な機能を拡張するリレーとして機能し、センタベースのクラスタリングアルゴリズムの精度を向上させる。
我々はECACの堅牢性と有効性を検証するために,多数の実験を行った。
ECACは多様なデータセットと多様なクラスタリングセンターに対して堅牢である。
ECAC最適化後、中心ベースのクラスタリングアルゴリズムの精度(NMIとRI)は平均33.4%、64.1%向上し、K平均でさえ複雑なクラスタを正確に識別する。
関連論文リスト
- Fast Clustering of Categorical Big Data [1.8416014644193066]
分類データのクラスタリングのために開発されたK-Modesアルゴリズムは、クラスタリング品質とクラスタリング効率の信頼性の低いパフォーマンスに悩まされている。
我々は、クラスタを見つけるための連続的な二分法プロセスであるBisecting K-Modes (BK-Modes) を調査し、クラスタが二分法プロセスからどのくらいの精度で出発するかを調べる。
実験結果から,大規模データセットのクラスタリング品質と効率の両面で,BK-Modsの優れた性能が示された。
論文 参考訳(メタデータ) (2025-02-10T22:19:08Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Dynamically Weighted Federated k-Means [0.0]
フェデレートされたクラスタリングにより、複数のデータソースが協力してデータをクラスタリングし、分散化とプライバシ保護を維持できる。
我々は,ロイドのk-meansクラスタリング法に基づいて,動的に重み付けされたk-means (DWF k-means) という新しいクラスタリングアルゴリズムを提案する。
我々は、クラスタリングスコア、精度、およびv尺度の観点から、アルゴリズムの性能を評価するために、複数のデータセットとデータ分散設定の実験を行う。
論文 参考訳(メタデータ) (2023-10-23T12:28:21Z) - An enhanced method of initial cluster center selection for K-means
algorithm [0.0]
K-meansアルゴリズムの初期クラスタ選択を改善するための新しい手法を提案する。
Convex Hullアルゴリズムは、最初の2つのセントロイドの計算を容易にし、残りの2つは、以前選択された中心からの距離に応じて選択される。
We obtained only 7.33%, 7.90%, and 0% clustering error in Iris, Letter, and Ruspini data。
論文 参考訳(メタデータ) (2022-10-18T00:58:50Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - (k, l)-Medians Clustering of Trajectories Using Continuous Dynamic Time
Warping [57.316437798033974]
本研究では,トラジェクトリの集中型クラスタリングの問題について考察する。
我々はDTWの連続バージョンを距離測定として使用することを提案し、これをCDTW(Continuous dynamic time warping)と呼ぶ。
一連の軌道から中心を計算し、その後反復的に改善する実践的な方法を示す。
論文 参考訳(メタデータ) (2020-12-01T13:17:27Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。