論文の概要: Flexible Clustering with a Sparse Mixture of Generalized Hyperbolic Distributions
- arxiv url: http://arxiv.org/abs/1903.05054v2
- Date: Thu, 6 Jun 2024 12:30:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-09 16:28:54.684323
- Title: Flexible Clustering with a Sparse Mixture of Generalized Hyperbolic Distributions
- Title(参考訳): 一般化双曲分布のスパース混合によるフレキシブルクラスタリング
- Authors: Alexa A. Sochaniwsky, Michael P. B. Gallaugher, Yang Tang, Paul D. McNicholas,
- Abstract要約: モデルベースのクラスタリングに対する従来のアプローチは、高次元のデータでは失敗することが多い。
一般化双曲分布の混合に対する成分スケール行列のパラメトリゼーションを提案する。
解析的に実現可能な予測最大化アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 6.839746711757701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust clustering of high-dimensional data is an important topic because clusters in real datasets are often heavy-tailed and/or asymmetric. Traditional approaches to model-based clustering often fail for high dimensional data, e.g., due to the number of free covariance parameters. A parametrization of the component scale matrices for the mixture of generalized hyperbolic distributions is proposed. This parameterization includes a penalty term in the likelihood. An analytically feasible expectation-maximization algorithm is developed by placing a gamma-lasso penalty constraining the concentration matrix. The proposed methodology is investigated through simulation studies and illustrated using two real datasets.
- Abstract(参考訳): 高次元データのロバストクラスタリングは重要なトピックである。
モデルベースのクラスタリングへの従来のアプローチは、自由な共分散パラメータの数のため、高次元データ、例えば、しばしば失敗する。
一般化双曲分布の混合に対する成分スケール行列のパラメトリゼーションを提案する。
このパラメータ化は、潜在的にペナルティ項を含む。
濃度行列を制約するガンマ・ラッソのペナルティを配置することにより,解析的に実現可能な予測最大化アルゴリズムを開発した。
提案手法はシミュレーション研究を通じて検討され、2つの実データを用いて説明される。
関連論文リスト
- Adaptive Fuzzy C-Means with Graph Embedding [84.47075244116782]
ファジィクラスタリングアルゴリズムは、大まかに2つの主要なグループに分類できる: ファジィC平均法(FCM)と混合モデルに基づく方法。
本稿では,FCMを用いたクラスタリングモデルを提案する。
論文 参考訳(メタデータ) (2024-05-22T08:15:50Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - A provable initialization and robust clustering method for general mixture models [6.806940901668607]
クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最新の結果は、ガウス以下の誤差を伴うセントロイドの周りにデータが分散されている場合に、最適なラベルの誤りを保証することに焦点が当てられている。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Clustering based on Mixtures of Sparse Gaussian Processes [6.939768185086753]
低次元の組込み空間を使ってデータをクラスタする方法は、マシンラーニングにおいて依然として難しい問題である。
本稿では,クラスタリングと次元還元の両立を目的とした共同定式化を提案する。
我々のアルゴリズムはスパースガウス過程の混合に基づいており、スパースガウス過程混合クラスタリング(SGP-MIC)と呼ばれる。
論文 参考訳(メタデータ) (2023-03-23T20:44:36Z) - Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。
この問題は楕円分布のペナルティ化された最大推定値として表される。
楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文 参考訳(メタデータ) (2022-10-21T13:19:45Z) - Likelihood Adjusted Semidefinite Programs for Clustering Heterogeneous
Data [16.153709556346417]
クラスタリングは広くデプロイされた学習ツールである。
iLA-SDPはEMよりも感度が低く、高次元データでは安定である。
論文 参考訳(メタデータ) (2022-09-29T21:03:13Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Spatially Coherent Clustering Based on Orthogonal Nonnegative Matrix
Factorization [0.0]
本稿では,クラスタメンバシップ行列の総変動(TV)正規化手順に基づく作業クラスタリングモデルを紹介する。
マトリックス支援レーザー脱離イオン化イメージング測定から得られた超スペクトルデータセット上の提案手法をすべて数値的に評価する。
論文 参考訳(メタデータ) (2021-04-25T23:40:41Z) - Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions [5.137336092866906]
データセットにおける最適なクラスタ数のロバストな決定は、広範囲のアプリケーションにおいて必須の要素である。
本稿では任意のReally Symmetric(RES)分散混合モデルで使用できるように一般化する。
サンプルサイズが有限であるデータセットに対して,ロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための近似を提供する。
論文 参考訳(メタデータ) (2020-05-04T11:44:49Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。