論文の概要: Medoid Silhouette clustering with automatic cluster number selection
- arxiv url: http://arxiv.org/abs/2309.03751v1
- Date: Thu, 7 Sep 2023 14:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 12:37:06.237010
- Title: Medoid Silhouette clustering with automatic cluster number selection
- Title(参考訳): クラスタ番号自動選択によるメドロイドシルエットクラスタリング
- Authors: Lars Lenssen and Erich Schubert
- Abstract要約: 我々は、効率的なメドイドベースのシルエットの変種について議論し、その特性の理論解析を行い、直接最適化のための2つの高速バージョンを提供し、最適なクラスタ数を選択するためにの使用について議論する。
バージョンのひとつでは、元の変種と同等の結果が保証されており、実行速度は$O(k2)$である。
30000サンプルと$k$=100の実データを用いた実験では、元のPAMMEDSILアルゴリズムと比較して10464$times$ Speedupが観測された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evaluation of clustering results is difficult, highly dependent on the
evaluated data set and the perspective of the beholder. There are many
different clustering quality measures, which try to provide a general measure
to validate clustering results. A very popular measure is the Silhouette. We
discuss the efficient medoid-based variant of the Silhouette, perform a
theoretical analysis of its properties, provide two fast versions for the
direct optimization, and discuss the use to choose the optimal number of
clusters. We combine ideas from the original Silhouette with the well-known PAM
algorithm and its latest improvements FasterPAM. One of the versions guarantees
equal results to the original variant and provides a run speedup of $O(k^2)$.
In experiments on real data with 30000 samples and $k$=100, we observed a
10464$\times$ speedup compared to the original PAMMEDSIL algorithm.
Additionally, we provide a variant to choose the optimal number of clusters
directly.
- Abstract(参考訳): クラスタリング結果の評価は困難であり、評価されたデータセットとbeholderの視点に大きく依存している。
クラスタリング結果を検証するための一般的な手段を提供しようとする、クラスタリングの品質測定方法には、さまざまなものがある。
非常に人気のある尺度はシルエットである。
効率的なメドロイドベースのシルエットの変種について議論し,その性質を理論的に解析し,直接最適化のために2つの高速バージョンを提供し,最適なクラスタ数を選択する方法について論じる。
我々は、オリジナルのSilhouetteのアイデアとよく知られたPAMアルゴリズムと、その最新の改良であるFasterPAMを組み合わせる。
バージョンの一つは元の変種と同じ結果を保証し、O(k^2)$のランスピードアップを提供する。
30000サンプルと$k$=100の実データを用いた実験では、元のPAMMEDSILアルゴリズムと比較して10464$\times$ Speedupが観測された。
さらに、最適なクラスタ数を直接選択するための変種も提供します。
関連論文リスト
- Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - Robust convex biclustering with a tuning-free method [10.603857319905936]
本稿では,ハマーロスを用いた凸複クラスタリングアルゴリズムのロバストなバージョンを提案する。
新たに導入されたロバスト化パラメータは、最適なパラメータを選択するのに余分な負担をもたらす。
実生活のバイオメディカル・アプリケーションも紹介されている。
論文 参考訳(メタデータ) (2022-12-06T16:37:11Z) - Clustering by Direct Optimization of the Medoid Silhouette [0.0]
我々は、効率的なメドイドに基づくシルエットの変種について議論し、その特性の理論解析を行い、直接最適化のために2つの高速バージョンを提供する。
バージョンのひとつでは、元の変種と同等の結果が保証されており、実行速度は$O(k2)$である。
30000サンプルと$k$=100の実データを用いた実験では、元のPAMMEDSILアルゴリズムと比較して10464$times$ Speedupが観測された。
論文 参考訳(メタデータ) (2022-09-26T10:13:47Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Personalized Federated Learning via Convex Clustering [72.15857783681658]
本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのアルゴリズム群を提案する。
提案するフレームワークは,異なるユーザのモデルの違いをペナル化する凸クラスタリングの一般化に基づいている。
論文 参考訳(メタデータ) (2022-02-01T19:25:31Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Fast and Eager k-Medoids Clustering: O(k) Runtime Improvement of the
PAM, CLARA, and CLARANS Algorithms [0.0]
Partitioning Around Medoids (PAM) は非ユークリッドデータをクラスタリングするためのアルゴリズムである。
本稿では,アルゴリズムの第2フェーズ(SWAP)でO(k)倍の高速化を実現するPAMの修正を提案する。
k=100,200の実データを用いた実験では,元のPAM SWAPアルゴリズムと比較して,それぞれ458倍のスピードアップを観測した。
論文 参考訳(メタデータ) (2020-08-12T08:37:50Z) - An Efficient Framework for Clustered Federated Learning [26.24231986590374]
本稿では,ユーザがクラスタに分散するフェデレーション学習(FL)の問題に対処する。
反復フェデレーションクラスタリングアルゴリズム(IFCA)を提案する。
ニューラルネットワークのような非分割問題では,アルゴリズムが効率的であることを示す。
論文 参考訳(メタデータ) (2020-06-07T08:48:59Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。