論文の概要: Determinantal consensus clustering
- arxiv url: http://arxiv.org/abs/2102.03948v1
- Date: Sun, 7 Feb 2021 23:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 16:02:14.104226
- Title: Determinantal consensus clustering
- Title(参考訳): 決定的コンセンサスクラスタリング
- Authors: Serge Vicente, Alejandro Murua
- Abstract要約: 本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Random restart of a given algorithm produces many partitions to yield a
consensus clustering. Ensemble methods such as consensus clustering have been
recognized as more robust approaches for data clustering than single clustering
algorithms. We propose the use of determinantal point processes or DPP for the
random restart of clustering algorithms based on initial sets of center points,
such as k-medoids or k-means. The relation between DPP and kernel-based methods
makes DPPs suitable to describe and quantify similarity between objects. DPPs
favor diversity of the center points within subsets. So, subsets with more
similar points have less chances of being generated than subsets with very
distinct points. The current and most popular sampling technique is sampling
center points uniformly at random. We show through extensive simulations that,
contrary to DPP, this technique fails both to ensure diversity, and to obtain a
good coverage of all data facets. These two properties of DPP are key to make
DPPs achieve good performance with small ensembles. Simulations with artificial
datasets and applications to real datasets show that determinantal consensus
clustering outperform classical algorithms such as k-medoids and k-means
consensus clusterings which are based on uniform random sampling of center
points.
- Abstract(参考訳): 与えられたアルゴリズムのランダム再起動は多くのパーティションを生成し、コンセンサスクラスタリングを生成する。
コンセンサスクラスタリングのようなエンサンブルメソッドは、単一のクラスタリングアルゴリズムよりもデータクラスタリングの堅牢なアプローチとして認識されている。
本稿では,k-medoids や k-means などの中心点の初期集合に基づくクラスタリングアルゴリズムのランダム再起動に行列点過程や dpp を用いることを提案する。
DPPとカーネルベースのメソッドの関係により、DPPはオブジェクト間の類似性を記述および定量化するのに適している。
DPPはサブセット内の中心点の多様性を好む。
したがって、類似点を持つ部分集合は、非常に異なる点を持つ部分集合よりも生成する確率が低い。
現在最も普及しているサンプリング技術は、ランダムにセンターポイントを均一にサンプリングすることです。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェーットの良好なカバレッジを得るのに失敗する、という広範なシミュレーションを通して示している。
これらのDPPの2つの特性は、DPPが小さなアンサンブルで優れたパフォーマンスを達成する鍵です。
人工データセットによるシミュレーションと実際のデータセットへの応用により、決定的コンセンサスクラスタリングは、中心点の均一なランダムサンプリングに基づくk-メノイドやk-平均コンセンサスクラスタリングのような古典的アルゴリズムよりも優れた結果を示す。
関連論文リスト
- Hybrid Fuzzy-Crisp Clustering Algorithm: Theory and Experiments [0.0]
本稿では,対象関数の線形項と2次項を組み合わせたファジィクロップクラスタリングアルゴリズムを提案する。
このアルゴリズムでは、クラスタへのデータポイントのメンバシップが、クラスタセンタから十分に離れていれば、自動的に正確にゼロに設定される。
提案アルゴリズムは、不均衡なデータセットの従来の手法よりも優れており、よりバランスの取れたデータセットと競合することができる。
論文 参考訳(メタデータ) (2023-03-25T05:27:26Z) - An enhanced method of initial cluster center selection for K-means
algorithm [0.0]
K-meansアルゴリズムの初期クラスタ選択を改善するための新しい手法を提案する。
Convex Hullアルゴリズムは、最初の2つのセントロイドの計算を容易にし、残りの2つは、以前選択された中心からの距離に応じて選択される。
We obtained only 7.33%, 7.90%, and 0% clustering error in Iris, Letter, and Ruspini data。
論文 参考訳(メタデータ) (2022-10-18T00:58:50Z) - POCS-based Clustering Algorithm [0.0]
本稿では,POCSに基づくクラスタリングアルゴリズムと呼ばれる,POCS法に基づく新しいクラスタリング手法を提案する。
提案するクラスタリングアルゴリズムは,POCSの並列プロジェクション手法を利用して,特徴空間に適切なクラスタプロトタイプを求める。
提案するPOCSクラスタリングアルゴリズムの性能は, 各種合成データセットを用いた実験により検証した。
論文 参考訳(メタデータ) (2022-08-15T12:33:09Z) - SSDBCODI: Semi-Supervised Density-Based Clustering with Outliers
Detection Integrated [1.8444322599555096]
クラスタリング分析は、機械学習における重要なタスクの1つだ。
クラスタリングクラスタリングのパフォーマンスが、異常値によって著しく損なわれる可能性があるため、アルゴリズムは、異常値検出のプロセスを組み込もうとする。
我々は,半教師付き検出素子であるSSDBCODIを提案する。
論文 参考訳(メタデータ) (2022-08-10T21:06:38Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - A sampling-based approach for efficient clustering in large datasets [0.8952229340927184]
本稿では,多数のクラスタを持つ高次元データに対して,簡便かつ効率的なクラスタリング手法を提案する。
私たちのコントリビューションは、データポイントとクラスタの完全な比較を必要としないため、k-meansよりもはるかに効率的です。
論文 参考訳(メタデータ) (2021-12-29T19:15:20Z) - (k, l)-Medians Clustering of Trajectories Using Continuous Dynamic Time
Warping [57.316437798033974]
本研究では,トラジェクトリの集中型クラスタリングの問題について考察する。
我々はDTWの連続バージョンを距離測定として使用することを提案し、これをCDTW(Continuous dynamic time warping)と呼ぶ。
一連の軌道から中心を計算し、その後反復的に改善する実践的な方法を示す。
論文 参考訳(メタデータ) (2020-12-01T13:17:27Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。