Fugu-MT 論文翻訳(概要): K-Means Clustering With Incomplete Data with the Use of Mahalanobis Distances

論文の概要: K-Means Clustering With Incomplete Data with the Use of Mahalanobis Distances

arxiv url: http://arxiv.org/abs/2411.00870v1
Date: Thu, 31 Oct 2024 00:05:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.467724
Title: K-Means Clustering With Incomplete Data with the Use of Mahalanobis Distances
Title（参考訳）: マハラノビス距離を用いた不完全データを用いたK平均クラスタリング
Authors: Lovis Kwasi Armah, Igor Melnykov,
Abstract要約: 我々は従来のユークリッド距離の代わりにマハラノビス距離を組み込む統一K平均アルゴリズムを開発した。我々のアルゴリズムはスタンドアローンの計算とK平均の両方を一貫して上回ることを示す。これらの結果は、IRISデータセットと楕円型クラスタでランダムに生成されたデータの両方にわたって保持される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effectively applying the K-means algorithm to data with missing values remains an important research area due to its impact on applications that rely on K-means clustering. Recent studies have shown that integrating imputation directly into the K-means algorithm yields superior results compared to handling imputation separately. In this work, we extend this approach by developing a unified K-means algorithm that incorporates Mahalanobis distances, instead of the traditional Euclidean distances, which previous research has shown to perform better for clusters with elliptical shapes. We conduct extensive experiments on synthetic datasets containing up to ten elliptical clusters, as well as the IRIS dataset. Using the Adjusted Rand Index (ARI) and Normalized Mutual Information (NMI), we demonstrate that our algorithm consistently outperforms both standalone imputation followed by K-means (using either Mahalanobis or Euclidean distance) and recent K-means algorithms that integrate imputation and clustering for handling incomplete data. These results hold across both the IRIS dataset and randomly generated data with elliptical clusters.
Abstract（参考訳）: K平均アルゴリズムを欠落値のデータに適用することは、K平均クラスタリングに依存するアプリケーションに影響を及ぼすため、依然として重要な研究領域である。近年の研究では、K-meansアルゴリズムにインパルスを直接組み込むことで、インパルスを別々に扱うよりも優れた結果が得られることが示されている。本研究では、従来のユークリッド距離ではなく、マハラノビス距離を組み込んだ統一K平均アルゴリズムを開発し、この手法を拡張した。我々は,最大10個の楕円体クラスタを含む合成データセットとIRISデータセットについて広範な実験を行った。適応ランダム指数 (ARI) と正規化相互情報 (NMI) を用いて、我々のアルゴリズムはスタンドアローンの計算とK平均(マハラノビスまたはユークリッド距離を使用)と、不完全データを扱うために計算とクラスタリングを統合する最近のK平均アルゴリズムの両方を一貫して上回っていることを示した。これらの結果は、IRISデータセットと楕円型クラスタでランダムに生成されたデータの両方にわたって保持される。

関連論文リスト

K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。 k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文参考訳（メタデータ） (2025-05-17T08:41:07Z)
Boosting K-means for Big Data by Fusing Data Streaming with Global Optimization [0.3069335774032178]
K平均クラスタリングはデータマイニングの基盤であるが、その効率は大量のデータセットに直面すると悪化する。可変近傍探索(VNS)メタヒューリスティックを利用して,K平均クラスタリングをビッグデータに最適化する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-18T15:43:34Z)
Inference with K-means [0.0]
k-meansは、kセントロイドをランダムに割り当て、データポイントを最も近いセントロイドに割り当て、割り当てられたポイントの平均に基づいてセントロイドを更新する反復的クラスタリングアルゴリズムである。オンライン平衡k平均手法を用いて,クラスタデータ分布から得られるデータポイントの最後の成分の予測について検討した。
論文参考訳（メタデータ） (2024-10-04T06:51:58Z)
Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-24T08:59:51Z)
A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文参考訳（メタデータ） (2023-12-17T04:41:07Z)
Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文参考訳（メタデータ） (2023-05-12T03:01:41Z)
Sketch-and-solve approaches to k-means clustering by semidefinite programming [14.930208990741132]
我々は,k-meansクラスタリングのPeng-Wei半定緩和を高速化するためのスケッチ・アンド・ソルジ手法を提案する。データが適切に分離された場合、k平均の最適なクラスタリングを特定する。そうでなければ、我々のアプローチは最適k-平均値に高信頼な下界を与える。
論文参考訳（メタデータ） (2022-11-28T19:51:30Z)
A new distance measurement and its application in K-Means Algorithm [7.168628921229442]
ユークリッド距離に基づくK平均クラスタリングアルゴリズムは、サンプル間の線形距離にのみ注意を払う。我々は,新しい距離測定,すなわちビュー距離を提案し,それをK-Meansアルゴリズムに適用する。実験の結果、ほとんどのデータセットにおいて、ビュー距離に基づくK-Meansアルゴリズムは分類精度とクラスタリング効果をある程度改善していることがわかった。
論文参考訳（メタデータ） (2022-06-10T16:26:22Z)
How to Use K-means for Big Data Clustering? [2.1165011830664677]
K-meansはEuclidean Minimum Sum-of-Squares Clustering (MSSC)モデルの下で最もシンプルで広く使われているアルゴリズムである。ビッグデータクラスタリングにK-means++アルゴリズムとK-means++アルゴリズムを用いる並列方式を提案する。
論文参考訳（メタデータ） (2022-04-14T08:18:01Z)
Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文参考訳（メタデータ） (2021-10-19T14:24:50Z)
Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。 RTKMは他の方法と競合することを示す。
論文参考訳（メタデータ） (2021-08-16T15:49:40Z)
Too Much Information Kills Information: A Clustering Perspective [6.375668163098171]
分散に基づくk-クラスタリングタスクに対して,k-平均クラスタリング(k-means clustering)が広く知られていることを含む,単純かつ斬新なアプローチを提案する。提案手法は、与えられたデータセットからサンプリングサブセットを選択し、サブセット内のデータ情報のみに基づいて決定する。ある仮定では、結果のクラスタリングは、高い確率で分散に基づく目的の最適度を推定するのに十分である。
論文参考訳（メタデータ） (2020-09-16T01:54:26Z)
Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。 1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文参考訳（メタデータ） (2020-08-18T16:22:06Z)
Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。 DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文参考訳（メタデータ） (2020-06-29T08:55:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。