論文の概要: A Scalable k-Medoids Clustering via Whale Optimization Algorithm
- arxiv url: http://arxiv.org/abs/2408.16993v2
- Date: Sat, 31 May 2025 01:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.91293
- Title: A Scalable k-Medoids Clustering via Whale Optimization Algorithm
- Title(参考訳): 鯨最適化アルゴリズムによるスケーラブルk-メドイドクラスタリング
- Authors: Huang Chenan, Narumasa Tsutsumida,
- Abstract要約: We introduced WOA-kMedoids, a novel unsupervised clustering method which with the Whale Optimization Algorithm (WOA)。
セントロイド選択を最適化することにより、WOA-kMedoidsは観測数に関して計算複雑性を2次からほぼ直線に減らす。
We showed that WOA-kMedoids achieved a clustering performance with PAM, a average Rand Index (RI) of 0.731 than PAM's 0.739, out Performance PAM on 12 of 25 datasets。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unsupervised clustering has emerged as a critical tool for uncovering hidden patterns in vast, unlabeled datasets. However, traditional methods, such as Partitioning Around Medoids (PAM), struggle with scalability owing to their quadratic computational complexity. To address this limitation, we introduce WOA-kMedoids, a novel unsupervised clustering method that incorporates the Whale Optimization Algorithm (WOA), a nature-inspired metaheuristic inspired by the hunting strategies of humpback whales. By optimizing the centroid selection, WOA-kMedoids reduces the computational complexity from quadratic to near-linear with respect to the number of observations, enabling scalability to large datasets while maintaining high clustering accuracy. We evaluated WOA-kMedoids using 25 diverse time-series datasets from the UCR archive. Our empirical results show that WOA-kMedoids achieved a clustering performance comparable to PAM, with an average Rand Index (RI) of 0.731 compared to PAM's 0.739, outperforming PAM on 12 out of 25 datasets. While exhibiting a slightly higher runtime than PAM on small datasets (<300 observations), WOA-kMedoids outperformed PAM on larger datasets, with an average speedup of 1.7x and a maximum of 2.3x. The scalability of WOA-kMedoids, combined with its high accuracy, makes them a promising choice for unsupervised clustering in big data applications. This method has implications for efficient knowledge discovery in massive unlabeled datasets, particularly where traditional k-medoids methods are computationally infeasible, including IoT anomaly detection, biomedical signal analysis, and customer behavior clustering.
- Abstract(参考訳): 教師なしクラスタリングは、巨大なラベルのないデータセットに隠されたパターンを発見するための重要なツールとして登場した。
しかしながら、PAM(Partitioning Around Medoids)のような伝統的な手法は、2次計算の複雑さのためにスケーラビリティに苦しむ。
WOA-kMedoids, Whale Optimization Algorithm (WOA)を組み込んだ非教師型クラスタリング手法を導入する。
セントロイド選択を最適化することにより、WOA-kMedoidsは2次からほぼ直線的な計算複雑性を減らし、クラスタリング精度を高く保ちながら大規模なデータセットへのスケーラビリティを実現する。
UCRアーカイブから25種類の時系列データセットを用いてWOA-kMedoidsを評価した。
実験の結果,WOA-kMedoids は PAM に匹敵するクラスタリング性能を示し,平均Rand Index (RI) は 0.731 である。
小さなデータセットでPAMよりも若干高いランタイムを示し(300の観測)、WOA-kMedoidsはより大きなデータセットでPAMを上回っ、平均速度は1.7倍、最大速度は2.3倍である。
WOA-kMedoidsのスケーラビリティは、その高精度さと相まって、ビッグデータアプリケーションにおける教師なしクラスタリングにとって有望な選択である。
この手法は、特に、IoT異常検出、バイオメディカル信号分析、顧客行動クラスタリングなど、従来のk-メディド法が計算不可能な大規模データセットにおいて、効率的な知識発見に影響を及ぼす。
関連論文リスト
- A Comparison of Deep Learning Methods for Cell Detection in Digital Cytology [1.607370483729741]
Papanicolaou-stained cytological Whole Slide Images (WSIs) における細胞検出のためのDeep Learning (DL) 法の性能評価を行った。
市販のアルゴリズムとカスタム設計の検出器について検討し、2つのデータセットに適用する。
その結果、特に改良された完全畳み込み回帰ネットワーク(IFCRN)法は、検出精度と計算効率の両方の観点からセグメンテーションに基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-09T15:08:12Z) - OneBatchPAM: A Fast and Frugal K-Medoids Algorithm [6.69456225406097]
本稿では,大規模データセットを適切な計算時間とメモリの複雑さで処理する新しいk-medoids近似アルゴリズムを提案する。
単一のサイズ m n のバッチは、ほとんどの k-メディドのベースラインと比較して、O(n2) ではなく、必要なメモリサイズとペアの異なる計算数を O(mn) に減少させる。
我々は,m = O(log(n)) のバッチが強い確率で元の局所探索アルゴリズムと同じ性能を保証するのに十分であることを示す理論的結果を得る。
論文 参考訳(メタデータ) (2025-01-31T16:48:16Z) - K-Means Clustering With Incomplete Data with the Use of Mahalanobis Distances [0.0]
我々は従来のユークリッド距離の代わりにマハラノビス距離を組み込む統一K平均アルゴリズムを開発した。
我々のアルゴリズムはスタンドアローンの計算とK平均の両方を一貫して上回ることを示す。
これらの結果は、IRISデータセットと楕円型クラスタでランダムに生成されたデータの両方にわたって保持される。
論文 参考訳(メタデータ) (2024-10-31T00:05:09Z) - Boosting K-means for Big Data by Fusing Data Streaming with Global Optimization [0.3069335774032178]
K平均クラスタリングはデータマイニングの基盤であるが、その効率は大量のデータセットに直面すると悪化する。
可変近傍探索(VNS)メタヒューリスティックを利用して,K平均クラスタリングをビッグデータに最適化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-18T15:43:34Z) - Artificial Data Point Generation in Clustered Latent Space for Small
Medical Datasets [4.542616945567623]
本稿では,クラスタ化潜在空間(AGCL)における人工データポイント生成手法を提案する。
AGCLは、合成データ生成により、小さな医療データセットの分類性能を向上させるように設計されている。
顔の表情データを利用してパーキンソン病検診に応用した。
論文 参考訳(メタデータ) (2024-09-26T09:51:08Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Federated Deep AUC Maximization for Heterogeneous Data with a Constant
Communication Complexity [77.78624443410216]
異種胸部データ検出のための改良型FDAMアルゴリズムを提案する。
本研究は,提案アルゴリズムの通信が機械数に強く依存し,精度レベルにも強く依存していることを示す。
FDAMアルゴリズムのベンチマークデータセットと、異なる組織の医療用胸部X線画像に対する効果を実験により実証した。
論文 参考訳(メタデータ) (2021-02-09T04:05:19Z) - SumGNN: Multi-typed Drug Interaction Prediction via Efficient Knowledge
Graph Summarization [64.56399911605286]
本稿では,サブグラフ抽出モジュールによって実現された知識要約グラフニューラルネットワークSumGNNを提案する。
SumGNNは5.54%まで最高のベースラインを上回り、データ関係の低いタイプでは特にパフォーマンスの向上が顕著である。
論文 参考訳(メタデータ) (2020-10-04T00:14:57Z) - BanditPAM: Almost Linear Time $k$-Medoids Clustering via Multi-Armed
Bandits [16.1767275655842]
現在の$k$-medoidsクラスタリングアルゴリズム、例えば、PAM(Partitioning Around Medoids)は反復的であり、各イテレーションで$n$のデータセットサイズであり、大規模なデータセットでは極めて高価である。
マルチアームバンディットの技法にインスパイアされたランダム化アルゴリズムであるBanditPAMを提案する。これは、PAMの繰り返しの複雑さを$O(n2)$から$O(n log n)$に減らし、実際に保持されるデータに対する仮定の下で、高い確率で同じ結果を返す。
我々は、コーディングを含むいくつかの大規模な実世界のデータセットで実験的に結果を検証する。
論文 参考訳(メタデータ) (2020-06-11T22:17:16Z) - ROAM: Random Layer Mixup for Semi-Supervised Learning in Medical Imaging [43.26668942258135]
医療画像のセグメンテーションは、機械学習の手法が抱える大きな課題の1つだ。
我々はRandOm lAyer MixupのROAMを提案する。
ROAMは、全脳セグメンテーションに対してそれぞれ2.40%と16.50%の相対的な改善を施した、完全に監督された(89.5%)と半監督された(87.0%)設定のSOTA(State-of-the-art)を達成している。
論文 参考訳(メタデータ) (2020-03-20T18:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。