論文の概要: Careful Seeding for k-Medois Clustering with Incremental k-Means++ Initialization
- arxiv url: http://arxiv.org/abs/2207.02404v2
- Date: Wed, 18 Dec 2024 08:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 18:59:48.890478
- Title: Careful Seeding for k-Medois Clustering with Incremental k-Means++ Initialization
- Title(参考訳): 増分k-Means++初期化を用いたk-Medoisクラスタリングのための注意深い探索
- Authors: Difei Cheng, Yunfeng Zhang, Ruinan Jin,
- Abstract要約: K-medoidsクラスタリングはk-meansクラスタリングの一般的な変種であり、パターン認識や機械学習で広く使用されている。
INCKMアルゴリズムと呼ばれる改良されたk-medoidsクラスタリングアルゴリズムが最近提案され、この欠点を克服した。
インクリメンタルk-means++ (INCKPP) アルゴリズムと呼ばれる新しいk-medoidsクラスタリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 17.4921582710817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: K-medoids clustering is a popular variant of k-means clustering and widely used in pattern recognition and machine learning. A main drawback of k-medoids clustering is that an improper initialization can cause it to get trapped in local optima. An improved k-medoids clustering algorithm, called INCKM algorithm, which is the first to apply incremental initialization to k-medoids clustering, was recently proposed to overcome this drawback. The INCKM algorithm requires the construction of a subset of candidate medoids determined by one hyperparameter for initialization, and meanwhile, it always fails when dealing with imbalanced datasets with an incorrect hyperparameter selection. In this paper, we propose a novel k-medoids clustering algorithm, called incremental k-means++ (INCKPP) algorithm, which initializes with a novel incremental manner, attempting to optimally add one new cluster center at each stage through a nonparametric and stochastic k-means++ initialization. The INCKPP algorithm overcomes the difficulty of hyperparameter selection in the INCKM algorithm, improves the clustering performance, and can deal with imbalanced datasets well. However, the INCKPP algorithm is not computationally efficient enough. To deal with this, we further propose an improved INCKPP algorithm, called INCKPPsample algorithm, which improves the clustering efficiency while maintaining the clustering performance of the INCKPP algorithm. Extensive results from experiments on both synthetic and real-world datasets, including imbalanced datasets, illustrate that the proposed algorithms outperforms than the other compared algorithms.
- Abstract(参考訳): K-medoidsクラスタリングはk-meansクラスタリングの一般的な変種であり、パターン認識や機械学習で広く使用されている。
k-メドイドのクラスタリングの主な欠点は、不適切な初期化によって局所的な最適状態に閉じ込められる可能性があることである。
この欠点を克服するために、k-medoidsクラスタリングにインクリメンタル初期化を最初に適用したINCKMアルゴリズムと呼ばれる改良k-medoidsクラスタリングアルゴリズムが最近提案されている。
INCKMアルゴリズムは、初期化のために1つのハイパーパラメータによって決定される候補ミードのサブセットを構築する必要があり、一方、不正なハイパーパラメータの選択で不均衡なデータセットを扱う場合は常に失敗する。
本稿では,非パラメトリックかつ確率的なk-means++初期化を通じて,各ステージに1つの新しいクラスタセンターを最適に追加しようとする,インクリメンタルk-means++(INCKPP)アルゴリズムを提案する。
INCKPPアルゴリズムは、INCKMアルゴリズムにおけるハイパーパラメータ選択の難しさを克服し、クラスタリング性能を改善し、不均衡なデータセットをうまく扱うことができる。
しかし、INCKPPアルゴリズムは計算効率が十分ではない。
さらに,INCKPPアルゴリズムのクラスタリング性能を維持しつつ,クラスタリング効率を向上するINCKPPsampleアルゴリズムという改良されたINCKPPアルゴリズムを提案する。
不均衡なデータセットを含む合成データセットと実世界のデータセットに関する実験の結果は、提案アルゴリズムが他の比較アルゴリズムよりも優れていることを示している。
関連論文リスト
- A Greedy Strategy for Graph Cut [95.2841574410968]
GGCと呼ばれるグラフカットの問題を解決するための欲求戦略を提案する。
これは、各データサンプルがクラスタと見なされる状態から始まり、2つのクラスタを動的にマージする。
GGCはサンプル数に関してほぼ線形な計算複雑性を持つ。
論文 参考訳(メタデータ) (2024-12-28T05:49:42Z) - A Fresh Look at Generalized Category Discovery through Non-negative Matrix Factorization [83.12938977698988]
Generalized Category Discovery (GCD) は、ラベル付きベースデータを用いて、ベース画像と新規画像の両方を分類することを目的としている。
現在のアプローチでは、コサイン類似性に基づく共起行列 $barA$ の固有の最適化に不適切に対処している。
本稿では,これらの欠陥に対処するNon-Negative Generalized Category Discovery (NN-GCD) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T07:24:11Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Quantum-Based Feature Selection for Multi-classification Problem in
Complex Systems with Edge Computing [15.894122816099133]
マルチクラス化問題,すなわちQReliefFに対する量子ベースの特徴選択アルゴリズムを提案する。
我々のアルゴリズムは、O(M) から O(sqrt(M)) への複雑さを減らし、最も近い隣人を見つけるのに優れている。
論文 参考訳(メタデータ) (2023-10-01T03:57:13Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - An enhanced method of initial cluster center selection for K-means
algorithm [0.0]
K-meansアルゴリズムの初期クラスタ選択を改善するための新しい手法を提案する。
Convex Hullアルゴリズムは、最初の2つのセントロイドの計算を容易にし、残りの2つは、以前選択された中心からの距離に応じて選択される。
We obtained only 7.33%, 7.90%, and 0% clustering error in Iris, Letter, and Ruspini data。
論文 参考訳(メタデータ) (2022-10-18T00:58:50Z) - k-MS: A novel clustering algorithm based on morphological reconstruction [0.0]
k-MSは最悪の場合、CPU並列k-Meansよりも高速である。
また、ミトーシスやTRICLUSTのような密度や形状に敏感な類似のクラスター化法よりも高速である。
論文 参考訳(メタデータ) (2022-08-30T16:55:21Z) - OptABC: an Optimal Hyperparameter Tuning Approach for Machine Learning
Algorithms [1.6114012813668934]
OptABCは、ABCアルゴリズムがほぼ最適解へのより高速な収束を支援するために提案されている。
OptABCは、人工蜂コロニーアルゴリズム、K-Meansクラスタリング、greedyアルゴリズム、および反対ベースの学習戦略を統合している。
実験結果から,OptABCの有効性が文献の既存手法と比較された。
論文 参考訳(メタデータ) (2021-12-15T22:33:39Z) - An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering [0.5801044612920815]
半教師付きMSSCのための分岐結合アルゴリズムを提案する。
背景知識はペアワイズ・マスタリンクと結びつかない制約として組み込まれている。
提案したグローバル最適化アルゴリズムは,実世界のインスタンスを最大800個のデータポイントまで効率的に解決する。
論文 参考訳(メタデータ) (2021-11-30T17:08:53Z) - Provably Faster Algorithms for Bilevel Optimization [54.83583213812667]
バイレベル最適化は多くの重要な機械学習アプリケーションに広く適用されている。
両レベル最適化のための2つの新しいアルゴリズムを提案する。
両アルゴリズムが$mathcalO(epsilon-1.5)$の複雑さを達成し,既存のアルゴリズムを桁違いに上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-08T21:05:30Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Benchmarking Simulation-Based Inference [5.3898004059026325]
確率的モデリングの最近の進歩は、確率の数値的評価を必要としないシミュレーションに基づく推論アルゴリズムを多数もたらした。
推論タスクと適切なパフォーマンス指標を備えたベンチマークを,アルゴリズムの初期選択とともに提供する。
性能指標の選択は重要であり、最先端のアルゴリズムでさえ改善の余地があり、逐次推定によりサンプリング効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-01-12T18:31:22Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - A Multi-disciplinary Ensemble Algorithm for Clustering Heterogeneous
Datasets [0.76146285961466]
本稿では,社会階級ランキングとメタヒューリスティックアルゴリズムに基づく進化的クラスタリングアルゴリズム(ECAStar)を提案する。
ECAStarは、再共生進化演算子、レヴィ飛行最適化、いくつかの統計技術と統合されている。
従来の5つのアプローチに対してECAStarを評価する実験を行った。
論文 参考訳(メタデータ) (2021-01-01T07:20:50Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Relational Algorithms for k-means Clustering [17.552485682328772]
本稿では,関係アルゴリズムモデルにおいて効率的なk平均近似アルゴリズムを提案する。
実行時間は潜在的に$N$よりも小さくなり、リレーショナルデータベースが表すデータポイントの数はクラスタ化される。
論文 参考訳(メタデータ) (2020-08-01T23:21:40Z) - Active Model Estimation in Markov Decision Processes [108.46146218973189]
マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。
マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-06T16:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。