論文の概要: Selecting the number of clusters, clustering models, and algorithms. A
unifying approach based on the quadratic discriminant score
- arxiv url: http://arxiv.org/abs/2111.02302v1
- Date: Wed, 3 Nov 2021 15:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 13:17:29.355445
- Title: Selecting the number of clusters, clustering models, and algorithms. A
unifying approach based on the quadratic discriminant score
- Title(参考訳): クラスタ数、クラスタリングモデル、アルゴリズムを選択する。
二次判別スコアに基づく統一的アプローチ
- Authors: Luca Coraggio and Pietro Coretto
- Abstract要約: 本稿では,多数のクラスタリングソリューションの中から選択可能な選択規則を提案する。
提案手法は,他の最先端手法と比較できない分割を比較できるという特徴的利点を有する。
- 参考スコア(独自算出の注目度): 1.0660480034605238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cluster analysis requires many decisions: the clustering method and the
implied reference model, the number of clusters and, often, several
hyper-parameters and algorithms' tunings. In practice, one produces several
partitions, and a final one is chosen based on validation or selection
criteria. There exist an abundance of validation methods that, implicitly or
explicitly, assume a certain clustering notion. Moreover, they are often
restricted to operate on partitions obtained from a specific method. In this
paper, we focus on groups that can be well separated by quadratic or linear
boundaries. The reference cluster concept is defined through the quadratic
discriminant score function and parameters describing clusters' size, center
and scatter. We develop two cluster-quality criteria called quadratic scores.
We show that these criteria are consistent with groups generated from a general
class of elliptically-symmetric distributions. The quest for this type of
groups is common in applications. The connection with likelihood theory for
mixture models and model-based clustering is investigated. Based on bootstrap
resampling of the quadratic scores, we propose a selection rule that allows
choosing among many clustering solutions. The proposed method has the
distinctive advantage that it can compare partitions that cannot be compared
with other state-of-the-art methods. Extensive numerical experiments and the
analysis of real data show that, even if some competing methods turn out to be
superior in some setups, the proposed methodology achieves a better overall
performance.
- Abstract(参考訳): クラスタ分析には、クラスタリング法と暗黙の参照モデル、クラスタの数、そしてしばしば、いくつかのハイパーパラメータとアルゴリズムのチューニングなど、多くの決定が必要である。
実際には、いくつかのパーティションを生成し、最後のパーティションは検証基準や選択基準に基づいて選択される。
暗黙的または明示的に特定のクラスタリングの概念を仮定する検証方法が多数存在する。
さらに、特定のメソッドから取得したパーティションの操作に制限されることが多い。
本稿では,2次境界あるいは線形境界で十分に分離できる群に焦点をあてる。
参照クラスタの概念は、二次判別スコア関数とクラスタのサイズ、中心、散乱を記述するパラメータによって定義される。
我々は二次スコアと呼ばれる2つのクラスタ品質基準を考案する。
これらの基準は、楕円対称分布の一般クラスから生成される群と一致することを示す。
この種のグループの探求はアプリケーションで一般的である。
混合モデルとモデルに基づくクラスタリングの確率論との関連について検討した。
二次スコアのブートストラップ再サンプリングに基づいて,多数のクラスタリングソリューションの中から選択可能な選択規則を提案する。
提案手法は,他の最先端手法と比較できない分割を比較できるという特徴的利点を有する。
広範な数値実験と実データの解析は、たとえいくつかの競合手法がいくつかの設定で優れていると判明しても、提案手法により全体的な性能が向上することを示している。
関連論文リスト
- A Computational Theory and Semi-Supervised Algorithm for Clustering [0.0]
半教師付きクラスタリングアルゴリズムを提案する。
クラスタリング法のカーネルは、Mohammadの異常検出アルゴリズムである。
結果は、合成および実世界のデータセットで示される。
論文 参考訳(メタデータ) (2023-06-12T09:15:58Z) - High-dimensional variable clustering based on maxima of a weakly dependent random process [1.1999555634662633]
本稿では,Asymptotic Independent Block (AI-block)モデルと呼ばれる,変数クラスタリングのための新しいモデルのクラスを提案する。
このモデルのクラスは特定可能であり、つまり、分割の間に部分的な順序を持つ極大要素が存在し、統計的推測が可能であることを意味する。
また,変数のクラスタを列挙するチューニングパラメータに依存するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-02T08:24:26Z) - A parallelizable model-based approach for marginal and multivariate
clustering [0.0]
本稿では,モデルに基づくクラスタリングの頑健さを生かしたクラスタリング手法を提案する。
我々は、各マージンごとに異なる数のクラスタを持つことができる有限混合モデルを指定することで、この問題に対処する。
提案手法は、完全な(結合した)モデルベースのクラスタリング手法よりも、中程度から高次元の処理に適するだけでなく、計算的にも魅力的である。
論文 参考訳(メタデータ) (2022-12-07T23:54:41Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - clusterBMA: Bayesian model averaging for clustering [1.2021605201770345]
本稿では、教師なしクラスタリングアルゴリズムの結果の重み付きモデル平均化を可能にするクラスタBMAを提案する。
クラスタリング内部検証基準を用いて、各モデルの結果の重み付けに使用される後続モデル確率の近似を開発する。
シミュレーションデータ上での他のアンサンブルクラスタリングメソッドのパフォーマンスに加えて、クラスタBMAは平均クラスタへの確率的アロケーションを含むユニークな機能を提供する。
論文 参考訳(メタデータ) (2022-09-09T04:55:20Z) - Personalized Federated Learning via Convex Clustering [72.15857783681658]
本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのアルゴリズム群を提案する。
提案するフレームワークは,異なるユーザのモデルの違いをペナル化する凸クラスタリングの一般化に基づいている。
論文 参考訳(メタデータ) (2022-02-01T19:25:31Z) - Selective Inference for Hierarchical Clustering [2.3311605203774386]
本稿では,任意のクラスタリング法から得られた2つのクラスタ間の平均差をテストするための選択的推論手法を提案する。
提案手法は,データからNull仮説が生成されたという事実を考慮し,選択型Iエラー率を制御する。
論文 参考訳(メタデータ) (2020-12-05T03:03:19Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Selective Inference for Latent Block Models [50.83356836818667]
本研究では,潜在ブロックモデルに対する選択的推論法を提案する。
我々は,潜在ブロックモデルの行と列クラスタのメンバシップの集合に対する統計的テストを構築した。
提案された正確で近似されたテストは、選択バイアスを考慮していない単純なテストと比較して効果的に機能する。
論文 参考訳(メタデータ) (2020-05-27T10:44:19Z) - Conjoined Dirichlet Process [63.89763375457853]
我々はディリクレ過程に基づく新しい非パラメトリック確率的ビクラスタリング法を開発し、列と列の双方に強い共起を持つビクラスタを同定する。
本手法はテキストマイニングと遺伝子発現解析の2つの異なる応用に適用し,既存の手法に比べて多くの設定でビクラスタ抽出を改善することを示す。
論文 参考訳(メタデータ) (2020-02-08T19:41:23Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。