論文の概要: Model-based clustering of partial records
- arxiv url: http://arxiv.org/abs/2103.16336v1
- Date: Tue, 30 Mar 2021 13:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:04:32.102342
- Title: Model-based clustering of partial records
- Title(参考訳): 部分レコードのモデルベースクラスタリング
- Authors: Emily M. Goren and Ranjan Maitra
- Abstract要約: 観測値の限界密度を用いたモデルベースの手法でクラスタリング手法を開発しています。
提案アルゴリズムは,不完全データセットの欠落値を考慮した,対応する全期待最大化(EM)手法と比較する。
シミュレーション研究により,本手法は実クラスタ分割の回復に有利であることが示された。
- 参考スコア(独自算出の注目度): 11.193504036335503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially recorded data are frequently encountered in many applications. In
practice, such datasets are usually clustered by removing incomplete cases or
features with missing values, or by imputing missing values, followed by
application of a clustering algorithm to the resulting altered data set. Here,
we develop clustering methodology through a model-based approach using the
marginal density for the observed values, using a finite mixture model of
multivariate $t$ distributions. We compare our algorithm to the corresponding
full expectation-maximization (EM) approach that considers the missing values
in the incomplete data set and makes a missing at random (MAR) assumption, as
well as case deletion and imputation. Since only the observed values are
utilized, our approach is computationally more efficient than imputation or
full EM. Simulation studies demonstrate that our approach has favorable
recovery of the true cluster partition compared to case deletion and imputation
under various missingness mechanisms, and is more robust to extreme MAR
violations than the full EM approach since it does not use the observed values
to inform those that are missing. Our methodology is demonstrated on a problem
of clustering gamma-ray bursts and is implemented in the
https://github.com/emilygoren/MixtClust R package.
- Abstract(参考訳): 部分的に記録されたデータは、多くのアプリケーションで頻繁に発生する。
実際には、そのようなデータセットは、通常、欠落した値を持つ不完全なケースや特徴を取り除くか、または欠落した値を示すことによってクラスタ化される。
本稿では,多変量$t$分布の有限混合モデルを用いて,観測値の限界密度を用いたモデルに基づくクラスタリング手法を開発した。
提案手法は,不完全データセットの欠落値を考慮し,ランダム(mar)仮定で欠落させ,ケース削除やインプテーションを行う,対応する完全期待最大化(em)手法と比較する。
観測値のみを利用するので,本手法はインプテーションやフルemよりも計算効率が高い。
シミュレーション研究により, 本手法は, 種々の欠失機構下でのケース削除やインプットに比べ, 真のクラスタ分割の回復に有利であり, 検出値を使用しないため, 完全EM法よりも極端にMAR違反に対して頑健であることが示された。
提案手法はガンマ線バーストのクラスタリングの問題に対して実証され,https://github.com/emilygoren/MixtClust Rパッケージに実装されている。
関連論文リスト
- Anomaly Detection Under Uncertainty Using Distributionally Robust
Optimization Approach [0.9217021281095907]
異常検出は、大多数のパターンに従わないデータポイントを見つける問題として定義される。
1クラスのサポートベクトルマシン(SVM)メソッドは、通常のデータポイントと異常を区別するための決定境界を見つけることを目的としている。
誤分類の確率が低い分布的に頑健な確率制約モデルを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:13:22Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Information-Theoretic Generalization Bounds for Iterative
Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。
我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文 参考訳(メタデータ) (2021-10-03T05:38:49Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Distributed Learning of Finite Gaussian Mixtures [21.652015112462]
有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。
新しい推定器は整合性を示し、いくつかの一般的な条件下ではルート-nの整合性を保持する。
シミュレーションおよび実世界のデータに基づく実験により、提案手法はグローバル推定器と同等の統計的性能を有することが示された。
論文 参考訳(メタデータ) (2020-10-20T16:17:47Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Categorical anomaly detection in heterogeneous data using minimum
description length clustering [3.871148938060281]
異種データを扱うため,MPLに基づく異常検出モデルの拡張のためのメタアルゴリズムを提案する。
実験の結果, 離散混合モデルを用いることで, 従来の2つの異常検出アルゴリズムと比較して, 競合性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-06-14T14:48:37Z) - Handling missing data in model-based clustering [0.0]
欠損データの存在下でガウス混合体を適合させる2つの方法を提案する。
どちらの手法もデータ拡張のためにモンテカルロ予測最大化アルゴリズムの変種を用いる。
提案手法はクラスタ同定と密度推定の両面で多重計算手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-06-04T15:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。