論文の概要: Revisiting Agglomerative Clustering
- arxiv url: http://arxiv.org/abs/2005.07995v2
- Date: Fri, 26 Jun 2020 23:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 12:38:30.693736
- Title: Revisiting Agglomerative Clustering
- Title(参考訳): クラスタリングの再検討
- Authors: Eric K. Tokuda, Cesar H. Comin and Luciano da F. Costa
- Abstract要約: クラスターのモデルも採用され、遷移によって囲まれた高密度の核が続き、その後は外れ値が続いた。
得られた結果は、多くの手法が単調なデータ中の2つのクラスタを検出することの検証を含む。
単一リンク法は偽陽性に対する耐性が高かった。
- 参考スコア(独自算出の注目度): 4.291340656866855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An important issue in clustering concerns the avoidance of false positives
while searching for clusters. This work addressed this problem considering
agglomerative methods, namely single, average, median, complete, centroid and
Ward's approaches applied to unimodal and bimodal datasets obeying uniform,
gaussian, exponential and power-law distributions. A model of clusters was also
adopted, involving a higher density nucleus surrounded by a transition,
followed by outliers. This paved the way to defining an objective means for
identifying the clusters from dendrograms. The adopted model also allowed the
relevance of the clusters to be quantified in terms of the height of their
subtrees. The obtained results include the verification that many methods
detect two clusters in unimodal data. The single-linkage method was found to be
more resilient to false positives. Also, several methods detected clusters not
corresponding directly to the nucleus. The possibility of identifying the type
of distribution was also investigated.
- Abstract(参考訳): クラスタリングにおける重要な問題は、クラスタ検索中に偽陽性を避けることである。
この研究は、単一, 平均, 中央, 完全, 中心, ウォードのアプローチを一様, ガウス的, 指数的, パワーロー分布に従う一様および二様データセットに適用することを考慮してこの問題に対処した。
クラスターのモデルも採用され、より高い密度の核が遷移によって囲まれ、その後に異常値が続く。
これにより、デンドログラムからクラスターを識別するための客観的な手段を定義する方法が整った。
採用されたモデルは、クラスタの妥当性をサブツリーの高さの観点から定量化することを可能にした。
得られた結果は、多くの手法が単調なデータの2つのクラスタを検出することの検証を含む。
単一リンク法は偽陽性に対する耐性が高かった。
また、いくつかの方法で核に直接対応しないクラスターを検出した。
分布のタイプを特定する可能性についても検討した。
関連論文リスト
- Clustering Based on Density Propagation and Subcluster Merging [92.15924057172195]
本稿では,クラスタ数を自動的に決定し,データ空間とグラフ空間の両方に適用可能な密度に基づくノードクラスタリング手法を提案する。
二つのノード間の距離を計算する従来の密度クラスタリング法とは異なり,提案手法は伝播過程を通じて密度を決定する。
論文 参考訳(メタデータ) (2024-11-04T04:09:36Z) - A provable initialization and robust clustering method for general mixture models [6.806940901668607]
クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最新の結果は、ガウス以下の誤差を伴うセントロイドの周りにデータが分散されている場合に、最適なラベルの誤りを保証することに焦点が当てられている。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Robust and Automatic Data Clustering: Dirichlet Process meets
Median-of-Means [18.3248037914529]
本稿では,モデルに基づく手法とセントロイド方式の原理を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
クラスタリング誤差の上限に関する統計的保証は,既存のクラスタリングアルゴリズムよりも提案手法の利点を示唆している。
論文 参考訳(メタデータ) (2023-11-26T19:01:15Z) - A Computational Theory and Semi-Supervised Algorithm for Clustering [0.0]
半教師付きクラスタリングアルゴリズムを提案する。
クラスタリング法のカーネルは、Mohammadの異常検出アルゴリズムである。
結果は、合成および実世界のデータセットで示される。
論文 参考訳(メタデータ) (2023-06-12T09:15:58Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Self-Evolutionary Clustering [1.662966122370634]
既存のディープクラスタリング手法の多くは、単純な距離比較に基づいており、手作り非線形マッピングによって生成されたターゲット分布に大きく依存している。
新たなモジュール型自己進化クラスタリング(Self-EvoC)フレームワークが構築され,自己管理的な分類によってクラスタリング性能が向上する。
このフレームワークは、サンプルアウトレイラを効率よく識別し、自己監督の助けを借りて、より良い目標分布を生成することができる。
論文 参考訳(メタデータ) (2022-02-21T19:38:18Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Clustering Ensemble Meets Low-rank Tensor Approximation [50.21581880045667]
本稿では,複数のクラスタリングを組み合わせ,個々のクラスタリングよりも優れたパフォーマンスを実現するクラスタリングアンサンブルの問題について検討する。
本稿では,この問題をグローバルな視点から解くために,新しい低ランクテンソル近似法を提案する。
7つのベンチマークデータセットを用いた実験の結果,提案手法は12の最先端手法と比較して,クラスタリング性能のブレークスルーを達成した。
論文 参考訳(メタデータ) (2020-12-16T13:01:37Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Conjoined Dirichlet Process [63.89763375457853]
我々はディリクレ過程に基づく新しい非パラメトリック確率的ビクラスタリング法を開発し、列と列の双方に強い共起を持つビクラスタを同定する。
本手法はテキストマイニングと遺伝子発現解析の2つの異なる応用に適用し,既存の手法に比べて多くの設定でビクラスタ抽出を改善することを示す。
論文 参考訳(メタデータ) (2020-02-08T19:41:23Z) - Toward Generalized Clustering through an One-Dimensional Approach [0.8122270502556374]
クラスタ間の分離のパッチを検出するアプローチは、凝集クラスタリング、特に単一リンクに基づいて開発されている。
この手法のポテンシャルは、より密度の低い間隙で分離された高密度の2つの間隔で特徴付けられる1次元クラスタリングモデルと同様に、点のクラスタレス均一分布と正規分布の解析に関して説明される。
論文 参考訳(メタデータ) (2020-01-01T16:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。