論文の概要: Likelihood Adjusted Semidefinite Programs for Clustering Heterogeneous
Data
- arxiv url: http://arxiv.org/abs/2209.15097v2
- Date: Mon, 29 May 2023 00:15:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 03:32:45.521477
- Title: Likelihood Adjusted Semidefinite Programs for Clustering Heterogeneous
Data
- Title(参考訳): 異種データのクラスタリングのための調整半定プログラム
- Authors: Yubo Zhuang, Xiaohui Chen, Yun Yang
- Abstract要約: クラスタリングは広くデプロイされた学習ツールである。
iLA-SDPはEMよりも感度が低く、高次元データでは安定である。
- 参考スコア(独自算出の注目度): 16.153709556346417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering is a widely deployed unsupervised learning tool. Model-based
clustering is a flexible framework to tackle data heterogeneity when the
clusters have different shapes. Likelihood-based inference for mixture
distributions often involves non-convex and high-dimensional objective
functions, imposing difficult computational and statistical challenges. The
classic expectation-maximization (EM) algorithm is a computationally thrifty
iterative method that maximizes a surrogate function minorizing the
log-likelihood of observed data in each iteration, which however suffers from
bad local maxima even in the special case of the standard Gaussian mixture
model with common isotropic covariance matrices. On the other hand, recent
studies reveal that the unique global solution of a semidefinite programming
(SDP) relaxed $K$-means achieves the information-theoretically sharp threshold
for perfectly recovering the cluster labels under the standard Gaussian mixture
model. In this paper, we extend the SDP approach to a general setting by
integrating cluster labels as model parameters and propose an iterative
likelihood adjusted SDP (iLA-SDP) method that directly maximizes the exact
observed likelihood in the presence of data heterogeneity. By lifting the
cluster assignment to group-specific membership matrices, iLA-SDP avoids
centroids estimation -- a key feature that allows exact recovery under
well-separateness of centroids without being trapped by their adversarial
configurations. Thus iLA-SDP is less sensitive than EM to initialization and
more stable on high-dimensional data. Our numeric experiments demonstrate that
iLA-SDP can achieve lower mis-clustering errors over several widely used
clustering methods including $K$-means, SDP and EM algorithms.
- Abstract(参考訳): クラスタリングは、広くデプロイされた教師なしの学習ツールである。
モデルベースのクラスタリングは、クラスタの形状が異なる場合、データの不均一性に取り組む柔軟なフレームワークである。
混合分布の確率に基づく推論は、しばしば非凸および高次元の客観的関数を含み、難しい計算と統計上の課題を課す。
古典的期待最大化 (EM) アルゴリズムは, 共分散行列を持つ標準ガウス混合モデル(英語版)の特別な場合においても, 観測データの対数類似度を最小化するサロゲート関数を最大化する, 計算的にスリフティ反復法である。
一方、最近の研究では、半定値プログラミング(SDP)を緩和した$K$-meansのユニークなグローバル解が、標準ガウス混合モデルの下でクラスタラベルを完全に復元するための情報理論的に鋭いしきい値を達成することが示されている。
本稿では,クラスタラベルをモデルパラメータとして統合することで,SDPのアプローチを一般的な設定に拡張し,データ不均一性の存在下での正確な観測可能性を直接最大化する反復的精度調整SDP(iLA-SDP)手法を提案する。
iLA-SDPは、グループ固有のメンバシップ行列へのクラスタ割り当てを持ち上げることで、Centroidsの推定を回避している。
したがって、iLA-SDPはEMよりも初期化に敏感であり、高次元データでは安定である。
我々の数値実験により、iLA-SDPは、$K$-means, SDP, EMアルゴリズムなど、広く使われているクラスタリング法よりも低い誤クラスタリング誤差を実現できることが示された。
関連論文リスト
- Adaptive Fuzzy C-Means with Graph Embedding [84.47075244116782]
ファジィクラスタリングアルゴリズムは、大まかに2つの主要なグループに分類できる: ファジィC平均法(FCM)と混合モデルに基づく方法。
本稿では,FCMを用いたクラスタリングモデルを提案する。
論文 参考訳(メタデータ) (2024-05-22T08:15:50Z) - A general theory for robust clustering via trimmed mean [7.650319416775203]
提案手法は,新しいトリミング平均型セントロイド推定器を用いたハイブリッドクラスタリング手法を導入し,誤ラベル保証を実現する。
その結果, 誤差がガウス以下の分布に従えば, ガウス以下のケースに還元されることがわかった。
これらの初期セントロイド推定値は,その後のクラスタリングアルゴリズムにおいて,最適な誤ラベル率を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - A Generalized Framework for Predictive Clustering and Optimization [18.06697544912383]
クラスタリングは強力で広く使われているデータサイエンスツールです。
本稿では,予測クラスタリングのための一般化最適化フレームワークを定義する。
また,大域的最適化のためにMILP(mixed-integer linear programming)を利用する共同最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T19:56:51Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Personalized Federated Learning via Convex Clustering [72.15857783681658]
本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのアルゴリズム群を提案する。
提案するフレームワークは,異なるユーザのモデルの違いをペナル化する凸クラスタリングの一般化に基づいている。
論文 参考訳(メタデータ) (2022-02-01T19:25:31Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z) - Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions [5.137336092866906]
データセットにおける最適なクラスタ数のロバストな決定は、広範囲のアプリケーションにおいて必須の要素である。
本稿では任意のReally Symmetric(RES)分散混合モデルで使用できるように一般化する。
サンプルサイズが有限であるデータセットに対して,ロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための近似を提供する。
論文 参考訳(メタデータ) (2020-05-04T11:44:49Z) - Flexible Clustering with a Sparse Mixture of Generalized Hyperbolic Distributions [6.839746711757701]
モデルベースのクラスタリングに対する従来のアプローチは、高次元のデータでは失敗することが多い。
一般化双曲分布の混合に対する成分スケール行列のパラメトリゼーションを提案する。
解析的に実現可能な予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-03-12T17:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。