論文の概要: A new distance measurement and its application in K-Means Algorithm
- arxiv url: http://arxiv.org/abs/2206.05215v1
- Date: Fri, 10 Jun 2022 16:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 16:03:33.524821
- Title: A new distance measurement and its application in K-Means Algorithm
- Title(参考訳): K平均アルゴリズムにおける新しい距離測定とその応用
- Authors: Yiqun Zhang and Houbiao Li
- Abstract要約: ユークリッド距離に基づくK平均クラスタリングアルゴリズムは、サンプル間の線形距離にのみ注意を払う。
我々は,新しい距離測定,すなわちビュー距離を提案し,それをK-Meansアルゴリズムに適用する。
実験の結果、ほとんどのデータセットにおいて、ビュー距離に基づくK-Meansアルゴリズムは分類精度とクラスタリング効果をある程度改善していることがわかった。
- 参考スコア(独自算出の注目度): 7.168628921229442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: K-Means clustering algorithm is one of the most commonly used clustering
algorithms because of its simplicity and efficiency. K-Means clustering
algorithm based on Euclidean distance only pays attention to the linear
distance between samples, but ignores the overall distribution structure of the
dataset (i.e. the fluid structure of dataset). Since it is difficult to
describe the internal structure of two data points by Euclidean distance in
high-dimensional data space, we propose a new distance measurement, namely,
view-distance, and apply it to the K-Means algorithm. On the classical manifold
learning datasets, S-curve and Swiss roll datasets, not only this new distance
can cluster the data according to the structure of the data itself, but also
the boundaries between categories are neat dividing lines. Moreover, we also
tested the classification accuracy and clustering effect of the K-Means
algorithm based on view-distance on some real-world datasets. The experimental
results show that, on most datasets, the K-Means algorithm based on
view-distance has a certain degree of improvement in classification accuracy
and clustering effect.
- Abstract(参考訳): K-Meansクラスタリングアルゴリズムは、その単純さと効率性から、最もよく使われているクラスタリングアルゴリズムの1つである。
ユークリッド距離に基づくK平均クラスタリングアルゴリズムは、サンプル間の線形距離にのみ注意を払うが、データセットの全体分布構造(すなわちデータセットの流体構造)を無視する。
高次元データ空間におけるユークリッド距離による2つのデータ点の内部構造の記述は困難であるため,新しい距離計測法,すなわち視点距離法を提案し,k-meansアルゴリズムに適用する。
古典的な多様体学習データセット、s-curveとswiss rollデータセットでは、この新たな距離がデータ自体の構造に従ってデータをクラスタ化できるだけでなく、カテゴリ間の境界もきれいに区切られている。
さらに、実世界のデータセットに対するビュー距離に基づくK-Meansアルゴリズムの分類精度とクラスタリング効果についても検証した。
実験の結果、ほとんどのデータセットにおいて、ビュー距離に基づくK-Meansアルゴリズムは分類精度とクラスタリング効果をある程度改善していることがわかった。
関連論文リスト
- Distribution-Based Trajectory Clustering [14.781854651899705]
軌道クラスタリングは、軌道データの共通パターンの発見を可能にする。
距離測定には高い計算コストと低い忠実度という2つの課題がある。
我々は,最近の分散カーネル(IDK)を3つの課題に対処するための主要なツールとして利用することを提案する。
論文 参考訳(メタデータ) (2023-10-08T11:28:34Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Measurement-Based Quantum Clustering Algorithms [0.0]
本稿では,2つの計測に基づくクラスタリングアルゴリズムを提案する。
ユークリッド距離計量は、データポイント間の類似性の尺度として用いられる。
各クラスタのバウンドは、使用するアンシラの数に基づいて決定される。
論文 参考訳(メタデータ) (2023-02-01T16:38:27Z) - A density peaks clustering algorithm with sparse search and K-d tree [16.141611031128427]
この問題を解決するために,スパース探索とK-d木を用いた密度ピーククラスタリングアルゴリズムを開発した。
分散特性が異なるデータセット上で、他の5つの典型的なクラスタリングアルゴリズムと比較して実験を行う。
論文 参考訳(メタデータ) (2022-03-02T09:29:40Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - K-Splits: Improved K-Means Clustering Algorithm to Automatically Detect
the Number of Clusters [0.12313056815753944]
本稿では,k-meansに基づく改良された階層型アルゴリズムであるk-splitsを紹介する。
提案手法の主な利点は,精度と速度である。
論文 参考訳(メタデータ) (2021-10-09T23:02:57Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。