論文の概要: Handling missing data in model-based clustering
- arxiv url: http://arxiv.org/abs/2006.02954v1
- Date: Thu, 4 Jun 2020 15:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:41:14.706963
- Title: Handling missing data in model-based clustering
- Title(参考訳): モデルベースクラスタリングにおける欠落データ処理
- Authors: Alessio Serafini, Thomas Brendan Murphy, Luca Scrucca
- Abstract要約: 欠損データの存在下でガウス混合体を適合させる2つの方法を提案する。
どちらの手法もデータ拡張のためにモンテカルロ予測最大化アルゴリズムの変種を用いる。
提案手法はクラスタ同定と密度推定の両面で多重計算手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaussian Mixture models (GMMs) are a powerful tool for clustering,
classification and density estimation when clustering structures are embedded
in the data. The presence of missing values can largely impact the GMMs
estimation process, thus handling missing data turns out to be a crucial point
in clustering, classification and density estimation. Several techniques have
been developed to impute the missing values before model estimation. Among
these, multiple imputation is a simple and useful general approach to handle
missing data. In this paper we propose two different methods to fit Gaussian
mixtures in the presence of missing data. Both methods use a variant of the
Monte Carlo Expectation-Maximisation (MCEM) algorithm for data augmentation.
Thus, multiple imputations are performed during the E-step, followed by the
standard M-step for a given eigen-decomposed component-covariance matrix. We
show that the proposed methods outperform the multiple imputation approach,
both in terms of clusters identification and density estimation.
- Abstract(参考訳): ガウス混合モデル(GMM)は、クラスタリング構造がデータに埋め込まれているときのクラスタリング、分類、密度推定のための強力なツールである。
欠落した値の存在がGMMの推定プロセスに大きな影響を及ぼす可能性があるため、欠落したデータを扱うことは、クラスタリング、分類、密度推定において重要なポイントであることが判明した。
モデル推定の前に、欠落した値をインプットするためにいくつかの技術が開発されている。
これらのうち、多重計算は、欠落したデータを扱うための単純で有用な一般的なアプローチである。
本稿では,欠損データの存在下でガウス混合体に適合する2つの異なる手法を提案する。
どちらの手法もデータ拡張のためにモンテカルロ予測最大化アルゴリズム(MCEM)の変種を用いる。
このように、Eステップ中に複数の計算を行い、次に所定の固有分解成分共分散行列の標準Mステップを実行する。
提案手法は,クラスタ同定と密度推定の両面で,多重インプテーション手法よりも優れていることを示す。
関連論文リスト
- Adaptive Fuzzy C-Means with Graph Embedding [84.47075244116782]
ファジィクラスタリングアルゴリズムは、大まかに2つの主要なグループに分類できる: ファジィC平均法(FCM)と混合モデルに基づく方法。
本稿では,FCMを用いたクラスタリングモデルを提案する。
論文 参考訳(メタデータ) (2024-05-22T08:15:50Z) - A provable initialization and robust clustering method for general mixture models [6.806940901668607]
クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最新の結果は、ガウス以下の誤差を伴うセントロイドの周りにデータが分散されている場合に、最適なラベルの誤りを保証することに焦点が当てられている。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - K-ARMA Models for Clustering Time Series Data [4.345882429229813]
K-Meansアルゴリズムのモデルベース一般化を用いた時系列データのクラスタリング手法を提案する。
クラスタリングアルゴリズムは,不確実な偏差基準を用いて,アウトレーヤに対して頑健にすることができることを示す。
我々は,時系列クラスタリングタスクにおいて,本手法が既存の手法と競合することを示す実データ実験を行った。
論文 参考訳(メタデータ) (2022-06-30T18:16:11Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - GMOTE: Gaussian based minority oversampling technique for imbalanced
classification adapting tail probability of outliers [0.0]
データレベルのアプローチは、主にオーバーサンプリングメソッドを使用して問題を解決します。例えば、合成マイノリティオーバーサンプリング技術(SMOTE)です。
本稿では,不均衡データセットに対する統計的観点からガウス型マイノリティオーバーサンプリング手法(gmote)を提案する。
GMOTEが分類および回帰木(CART)またはサポートベクター機械(SVM)と結合されるとき、それはよりよい正確さおよびF1スコアを示します。
論文 参考訳(メタデータ) (2021-05-09T07:04:37Z) - Model-based clustering of partial records [11.193504036335503]
観測値の限界密度を用いたモデルベースの手法でクラスタリング手法を開発しています。
提案アルゴリズムは,不完全データセットの欠落値を考慮した,対応する全期待最大化(EM)手法と比較する。
シミュレーション研究により,本手法は実クラスタ分割の回復に有利であることが示された。
論文 参考訳(メタデータ) (2021-03-30T13:30:59Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z) - Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions [5.137336092866906]
データセットにおける最適なクラスタ数のロバストな決定は、広範囲のアプリケーションにおいて必須の要素である。
本稿では任意のReally Symmetric(RES)分散混合モデルで使用できるように一般化する。
サンプルサイズが有限であるデータセットに対して,ロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための近似を提供する。
論文 参考訳(メタデータ) (2020-05-04T11:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。