論文の概要: Anomaly Detection and Improvement of Clusters using Enhanced K-Means Algorithm
- arxiv url: http://arxiv.org/abs/2505.24365v1
- Date: Fri, 30 May 2025 08:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.863074
- Title: Anomaly Detection and Improvement of Clusters using Enhanced K-Means Algorithm
- Title(参考訳): 拡張K平均アルゴリズムによるクラスタの異常検出と改善
- Authors: Vardhan Shorewala, Shivam Shorewala,
- Abstract要約: 本研究では,Nクラスタのクラスタ内分散を,大域的最小値に到達するまで反復的に低減するアルゴリズムを提案する。
本研究では, シルエット係数, Calinski-Harabasz 指数, Davies-Bouldin 指数など, 教師なし学習の本質的尺度を用いて評価を行った。
合成データとUCI乳癌およびUCIワイン品質データセットの外部検証には、Jaccard類似度スコア、V尺度、F1スコアが使用されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a unified approach to cluster refinement and anomaly detection in datasets. We propose a novel algorithm that iteratively reduces the intra-cluster variance of N clusters until a global minimum is reached, yielding tighter clusters than the standard k-means algorithm. We evaluate the method using intrinsic measures for unsupervised learning, including the silhouette coefficient, Calinski-Harabasz index, and Davies-Bouldin index, and extend it to anomaly detection by identifying points whose assignment causes a significant variance increase. External validation on synthetic data and the UCI Breast Cancer and UCI Wine Quality datasets employs the Jaccard similarity score, V-measure, and F1 score. Results show variance reductions of 18.7% and 88.1% on the synthetic and Wine Quality datasets, respectively, along with accuracy and F1 score improvements of 22.5% and 20.8% on the Wine Quality dataset.
- Abstract(参考訳): 本稿では,データセットのクラスタリファインメントと異常検出に対する統一的なアプローチを提案する。
我々は,Nクラスタのクラスタ内分散を,大域的な最小値に達するまで反復的に低減し,標準のk平均アルゴリズムよりも厳密なクラスタを生成する新しいアルゴリズムを提案する。
本研究では,シルエット係数,カリンスキー・ハラバスツ指数,デイビース・ボルディン指数などの教師なし学習のための本質的な尺度を用いて,課題が有意なばらつきを生じさせる点を同定し,異常検出に拡張する方法について検討した。
合成データとUCI乳癌およびUCIワイン品質データセットの外部検証には、Jaccard類似度スコア、V尺度、F1スコアが使用されている。
その結果、合成品質データセットでは18.7%、ワイン品質データセットでは88.1%、正確性とF1スコアでは22.5%、ワイン品質データセットでは20.8%となっている。
関連論文リスト
- A Computational Approach to Improving Fairness in K-means Clustering [8.001963712764569]
一般的なK平均クラスタリングアルゴリズムは、さらなる分析や解釈の大きな弱点に悩まされる可能性がある。
この研究は、K平均クラスタリングの公平性を改善するために、2段階最適化の定式化を試みる。
ベンチマークデータセットの実験は、クラスタリングの品質に最小限の影響を伴って、フェアネスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2025-05-29T01:48:12Z) - Enhanced ECG Arrhythmia Detection Accuracy by Optimizing Divergence-Based Data Fusion [5.575308369829893]
ケルネル密度推定(KDE)とクルバック・リーブラー(KL)の発散を利用した特徴量に基づく融合アルゴリズムを提案する。
健常者2000名, 病人2000名から収集した心電図による社内データセットを用いて, PTB-XLデータセットを用いて本手法の検証を行った。
その結果, 本手法は, 統合データセットにおける異常心電図症例の特徴に基づく分類精度を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-03-19T12:16:48Z) - Interaction-Aware Gaussian Weighting for Clustered Federated Learning [58.92159838586751]
フェデレートラーニング(FL)は、プライバシを維持しながらモデルをトレーニングするための分散パラダイムとして登場した。
本稿では,新たなクラスタリングFL法であるFedGWC(Federated Gaussian Weighting Clustering)を提案する。
ベンチマークデータセットを用いた実験により,FedGWCはクラスタの品質と分類精度において,既存のFLアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-05T16:33:36Z) - K-Means Clustering With Incomplete Data with the Use of Mahalanobis Distances [0.0]
我々は従来のユークリッド距離の代わりにマハラノビス距離を組み込む統一K平均アルゴリズムを開発した。
我々のアルゴリズムはスタンドアローンの計算法と不完全データを用いたK平均とK平均の両方を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-31T00:05:09Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。