論文の概要: A new distance measurement and its application in K-Means Algorithm
- arxiv url: http://arxiv.org/abs/2206.05215v1
- Date: Fri, 10 Jun 2022 16:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 16:03:33.524821
- Title: A new distance measurement and its application in K-Means Algorithm
- Title(参考訳): K平均アルゴリズムにおける新しい距離測定とその応用
- Authors: Yiqun Zhang and Houbiao Li
- Abstract要約: ユークリッド距離に基づくK平均クラスタリングアルゴリズムは、サンプル間の線形距離にのみ注意を払う。
我々は,新しい距離測定,すなわちビュー距離を提案し,それをK-Meansアルゴリズムに適用する。
実験の結果、ほとんどのデータセットにおいて、ビュー距離に基づくK-Meansアルゴリズムは分類精度とクラスタリング効果をある程度改善していることがわかった。
- 参考スコア(独自算出の注目度): 7.168628921229442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: K-Means clustering algorithm is one of the most commonly used clustering
algorithms because of its simplicity and efficiency. K-Means clustering
algorithm based on Euclidean distance only pays attention to the linear
distance between samples, but ignores the overall distribution structure of the
dataset (i.e. the fluid structure of dataset). Since it is difficult to
describe the internal structure of two data points by Euclidean distance in
high-dimensional data space, we propose a new distance measurement, namely,
view-distance, and apply it to the K-Means algorithm. On the classical manifold
learning datasets, S-curve and Swiss roll datasets, not only this new distance
can cluster the data according to the structure of the data itself, but also
the boundaries between categories are neat dividing lines. Moreover, we also
tested the classification accuracy and clustering effect of the K-Means
algorithm based on view-distance on some real-world datasets. The experimental
results show that, on most datasets, the K-Means algorithm based on
view-distance has a certain degree of improvement in classification accuracy
and clustering effect.
- Abstract(参考訳): K-Meansクラスタリングアルゴリズムは、その単純さと効率性から、最もよく使われているクラスタリングアルゴリズムの1つである。
ユークリッド距離に基づくK平均クラスタリングアルゴリズムは、サンプル間の線形距離にのみ注意を払うが、データセットの全体分布構造(すなわちデータセットの流体構造)を無視する。
高次元データ空間におけるユークリッド距離による2つのデータ点の内部構造の記述は困難であるため,新しい距離計測法,すなわち視点距離法を提案し,k-meansアルゴリズムに適用する。
古典的な多様体学習データセット、s-curveとswiss rollデータセットでは、この新たな距離がデータ自体の構造に従ってデータをクラスタ化できるだけでなく、カテゴリ間の境界もきれいに区切られている。
さらに、実世界のデータセットに対するビュー距離に基づくK-Meansアルゴリズムの分類精度とクラスタリング効果についても検証した。
実験の結果、ほとんどのデータセットにおいて、ビュー距離に基づくK-Meansアルゴリズムは分類精度とクラスタリング効果をある程度改善していることがわかった。
関連論文リスト
- K-Means Clustering With Incomplete Data with the Use of Mahalanobis Distances [0.0]
我々は従来のユークリッド距離の代わりにマハラノビス距離を組み込む統一K平均アルゴリズムを開発した。
我々のアルゴリズムはスタンドアローンの計算とK平均の両方を一貫して上回ることを示す。
これらの結果は、IRISデータセットと楕円型クラスタでランダムに生成されたデータの両方にわたって保持される。
論文 参考訳(メタデータ) (2024-10-31T00:05:09Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Distribution-Based Trajectory Clustering [14.781854651899705]
軌道クラスタリングは、軌道データの共通パターンの発見を可能にする。
距離測定には高い計算コストと低い忠実度という2つの課題がある。
我々は,最近の分散カーネル(IDK)を3つの課題に対処するための主要なツールとして利用することを提案する。
論文 参考訳(メタデータ) (2023-10-08T11:28:34Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - A density peaks clustering algorithm with sparse search and K-d tree [16.141611031128427]
この問題を解決するために,スパース探索とK-d木を用いた密度ピーククラスタリングアルゴリズムを開発した。
分散特性が異なるデータセット上で、他の5つの典型的なクラスタリングアルゴリズムと比較して実験を行う。
論文 参考訳(メタデータ) (2022-03-02T09:29:40Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。