論文の概要: On the Efficiency of K-Means Clustering: Evaluation, Optimization, and
Algorithm Selection
- arxiv url: http://arxiv.org/abs/2010.06654v2
- Date: Tue, 27 Oct 2020 02:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 00:48:50.988268
- Title: On the Efficiency of K-Means Clustering: Evaluation, Optimization, and
Algorithm Selection
- Title(参考訳): K平均クラスタリングの効率性について:評価,最適化,アルゴリズムの選択
- Authors: Sheng Wang, Yuan Sun, Zhifeng Bao
- Abstract要約: 本稿では,高速k平均クラスタリングのためのロイドのアルゴリズムを高速化する既存の手法について,徹底的な評価を行う。
UniK内では、複数のデータセット上での複数のパフォーマンス指標を用いて、既存のメソッドの長所と短所を徹底的に評価する。
我々は、より積極的な刈り取りのために複数の既存手法を効果的にハイブリダイズする、UniK上の最適化アルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 20.900296096958446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a thorough evaluation of the existing methods that
accelerate Lloyd's algorithm for fast k-means clustering. To do so, we analyze
the pruning mechanisms of existing methods, and summarize their common pipeline
into a unified evaluation framework UniK. UniK embraces a class of well-known
methods and enables a fine-grained performance breakdown. Within UniK, we
thoroughly evaluate the pros and cons of existing methods using multiple
performance metrics on a number of datasets. Furthermore, we derive an
optimized algorithm over UniK, which effectively hybridizes multiple existing
methods for more aggressive pruning. To take this further, we investigate
whether the most efficient method for a given clustering task can be
automatically selected by machine learning, to benefit practitioners and
researchers.
- Abstract(参考訳): 本稿では,lloydの高速k-meansクラスタリングアルゴリズムを高速化する既存手法の徹底的な評価を行う。
そこで本研究では,既存手法の刈り取り機構を分析し,その共通パイプラインを統一評価フレームワークunikにまとめる。
UniKは、よく知られたメソッドのクラスを採用し、きめ細かいパフォーマンスの分解を可能にする。
UniK内では、複数のデータセット上で複数のパフォーマンス指標を用いて、既存のメソッドの長所と短所を徹底的に評価する。
さらに、より積極的な刈り出しのために複数の既存手法を効果的にハイブリダイズするUniK上の最適化アルゴリズムを導出する。
さらに,機械学習によってクラスタリングタスクの最も効率的な方法が自動的に選択可能かどうかを調査し,実践者や研究者に利益をもたらす。
関連論文リスト
- Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - A sampling-based approach for efficient clustering in large datasets [0.8952229340927184]
本稿では,多数のクラスタを持つ高次元データに対して,簡便かつ効率的なクラスタリング手法を提案する。
私たちのコントリビューションは、データポイントとクラスタの完全な比較を必要としないため、k-meansよりもはるかに効率的です。
論文 参考訳(メタデータ) (2021-12-29T19:15:20Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - A bi-level encoding scheme for the clustered shortest-path tree problem
in multifactorial optimization [1.471992435706872]
CluSPT(Clustered Shortest-Path Tree Problem)は、実生活における様々な最適化問題において重要な役割を果たしている。
近年、CluSPTを扱うためにMFEA(Multifactorial Evolutionary Algorithm)が導入されている。
本稿では,MFEAに基づくCluSPTの解法について述べる。
論文 参考訳(メタデータ) (2021-02-12T13:36:07Z) - A self-adaptive and robust fission clustering algorithm via heat
diffusion and maximal turning angle [4.246818236277977]
近年,新しい高速クラスタリングアルゴリズムであるフィッションクラスタリングアルゴリズムが提案されている。
本稿では,ロバスト・フィッション・クラスタリング(RFC)アルゴリズムと自己適応型雑音識別手法を提案する。
論文 参考訳(メタデータ) (2021-02-07T13:16:47Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - A semi-supervised sparse K-Means algorithm [3.04585143845864]
クラスタリングに必要な機能のサブグループを検出するために、教師なしスパースクラスタリング手法を用いることができる。
半教師付き手法では、ラベル付きデータを使用して制約を作成し、クラスタリングソリューションを強化することができる。
提案アルゴリズムは,他の半教師付きアルゴリズムの高性能性を保ち,また,情報的特徴から情報的特徴を識別する能力も保持していることを示す。
論文 参考訳(メタデータ) (2020-03-16T02:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。