論文の概要: Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions
- arxiv url: http://arxiv.org/abs/2005.01404v3
- Date: Thu, 1 Apr 2021 09:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 01:22:08.808080
- Title: Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions
- Title(参考訳): 実楕円対称分布に対するロバストM推定に基づくベイズクラスタ列挙
- Authors: Christian A. Schroth and Michael Muma
- Abstract要約: データセットにおける最適なクラスタ数のロバストな決定は、広範囲のアプリケーションにおいて必須の要素である。
本稿では任意のReally Symmetric(RES)分散混合モデルで使用できるように一般化する。
サンプルサイズが有限であるデータセットに対して,ロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための近似を提供する。
- 参考スコア(独自算出の注目度): 5.137336092866906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robustly determining the optimal number of clusters in a data set is an
essential factor in a wide range of applications. Cluster enumeration becomes
challenging when the true underlying structure in the observed data is
corrupted by heavy-tailed noise and outliers. Recently, Bayesian cluster
enumeration criteria have been derived by formulating cluster enumeration as
maximization of the posterior probability of candidate models. This article
generalizes robust Bayesian cluster enumeration so that it can be used with any
arbitrary Real Elliptically Symmetric (RES) distributed mixture model. Our
framework also covers the case of M-estimators that allow for mixture models,
which are decoupled from a specific probability distribution. Examples of
Huber's and Tukey's M-estimators are discussed. We derive a robust criterion
for data sets with finite sample size, and also provide an asymptotic
approximation to reduce the computational cost at large sample sizes. The
algorithms are applied to simulated and real-world data sets, including
radar-based person identification, and show a significant robustness
improvement in comparison to existing methods.
- Abstract(参考訳): データセット内の最適なクラスタ数をロバストに決定することは、幅広いアプリケーションにおいて必須の要素である。
クラスタ列挙は、観測データの真の基盤構造が重尾ノイズと外れ値によって破壊されると困難になる。
近年,候補モデルの後方確率の最大化としてクラスタ列挙を定式化したベイズクラスタ列挙基準が導出されている。
本稿では、任意のReal Elliptically Symmetric (RES)分散混合モデルで使用できるように、頑健なベイズクラスタ列挙を一般化する。
また,特定の確率分布から分離した混合モデルを可能にするm推定器の事例についても述べる。
Huber と Tukey の M-estimator の例について論じる。
サンプルサイズが有限であるデータセットに対するロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための漸近近似を提供する。
これらのアルゴリズムは、レーダベースの人物識別を含むシミュレーションおよび実世界のデータセットに適用され、既存の手法と比較して顕著な堅牢性向上を示す。
関連論文リスト
- A provable initialization and robust clustering method for general mixture models [6.806940901668607]
クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最新の結果は、ガウス以下の誤差を伴うセントロイドの周りにデータが分散されている場合に、最適なラベルの誤りを保証することに焦点が当てられている。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Finite Mixtures of Multivariate Poisson-Log Normal Factor Analyzers for
Clustering Count Data [0.8499685241219366]
因子分析モデルの混合に基づく8種類の擬似混合モデルについて紹介する。
提案モデルはRNAシークエンシング研究から得られた離散的なデータをクラスタリングする文脈において探索される。
論文 参考訳(メタデータ) (2023-11-13T21:23:15Z) - Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Likelihood Adjusted Semidefinite Programs for Clustering Heterogeneous
Data [16.153709556346417]
クラスタリングは広くデプロイされた学習ツールである。
iLA-SDPはEMよりも感度が低く、高次元データでは安定である。
論文 参考訳(メタデータ) (2022-09-29T21:03:13Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Personalized Federated Learning via Convex Clustering [72.15857783681658]
本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのアルゴリズム群を提案する。
提案するフレームワークは,異なるユーザのモデルの違いをペナル化する凸クラスタリングの一般化に基づいている。
論文 参考訳(メタデータ) (2022-02-01T19:25:31Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z) - Real Elliptically Skewed Distributions and Their Application to Robust
Cluster Analysis [5.137336092866906]
本稿では,Really Skewed(RESK)分布と関連するクラスタリングアルゴリズムの新しいクラスを提案する。
非対称分散および重み付きデータクラスタは、様々な現実世界のアプリケーションで報告されている。
論文 参考訳(メタデータ) (2020-06-30T10:44:39Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。