論文の概要: Model-based Clustering with Missing Not At Random Data
- arxiv url: http://arxiv.org/abs/2112.10425v4
- Date: Fri, 22 Dec 2023 08:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 19:12:35.676670
- Title: Model-based Clustering with Missing Not At Random Data
- Title(参考訳): ランダムデータに欠落したモデルベースクラスタリング
- Authors: Aude Sportisse (UCA, MAASAI), Matthieu Marbac (UR, ENSAI, CNRS,
CREST), Fabien Laporte (Nantes Univ, CNRS, ITX-lab), Gilles Celeux (CELESTE),
Claire Boyer (SU, LPSM (UMR\_8001), MOKAPLAN), Julie Josse (IDESP,
PREMEDICAL), Christophe Biernacki (CNRS, MODAL)
- Abstract要約: 我々は,MNARデータを含む,非常に一般的なタイプの欠落データを扱うために設計されたモデルベースのクラスタリングアルゴリズムを提案する。
いくつかのMNARモデルについて議論し、不足の原因は、欠落変数自体の値とクラスメンバーシップの両方に依存する。
MNARzと呼ばれる特定のMNARモデルに注目する。
- 参考スコア(独自算出の注目度): 0.8777702580252754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based unsupervised learning, as any learning task, stalls as soon as
missing data occurs. This is even more true when the missing data are
informative, or said missing not at random (MNAR). In this paper, we propose
model-based clustering algorithms designed to handle very general types of
missing data, including MNAR data. To do so, we introduce a mixture model for
different types of data (continuous, count, categorical and mixed) to jointly
model the data distribution and the MNAR mechanism, remaining vigilant to the
relative degrees of freedom of each. Several MNAR models are discussed, for
which the cause of the missingness can depend on both the values of the missing
variable themselves and on the class membership. However, we focus on a
specific MNAR model, called MNARz, for which the missingness only depends on
the class membership. We first underline its ease of estimation, by showing
that the statistical inference can be carried out on the data matrix
concatenated with the missing mask considering finally a standard MAR
mechanism. Consequently, we propose to perform clustering using the Expectation
Maximization algorithm, specially developed for this simplified
reinterpretation. Finally, we assess the numerical performances of the proposed
methods on synthetic data and on the real medical registry TraumaBase as well.
- Abstract(参考訳): モデルベースの教師なし学習は、学習タスクとして、データが失われるとすぐに停止します。
これは、欠落したデータが情報化されている場合や、不明なデータがランダムではない場合(MNAR)にさらに真実である。
本稿では、mnarデータを含む非常に一般的なデータ型を扱うように設計されたモデルベースクラスタリングアルゴリズムを提案する。
そこで本研究では,データ分布とMNAR機構を協調的にモデル化するために,データの種類(連続的,数的,分類的,混合的)の混合モデルを導入する。
いくつかのmnarモデルについて議論され、欠落の原因は欠落した変数自体の値とクラスメンバシップの両方に依存する。
しかし、MNARzと呼ばれる特定のMNARモデルに焦点をあて、欠落はクラスメンバーシップにのみ依存する。
まず, 標準mar機構を考慮し, 紛失マスクと連結したデータ行列上で統計的推論を行うことにより, 推定の容易さを強調する。
そこで我々は,この単純化された再解釈のために開発された期待最大化アルゴリズムを用いてクラスタリングを行う。
最後に,提案手法の合成データおよび実際の医療用レジストリであるTraumaBase上での数値的性能を評価した。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Deep Generative Imputation Model for Missing Not At Random Data [13.56794299885683]
我々は、潜伏空間における現実の欠落メカニズムを処理するために、GNRと呼ばれる深い生成的計算モデルを利用する。
実験の結果,GNRは最先端のMNARベースラインをはるかに超え,有意なマージンを有することが明らかとなった。
論文 参考訳(メタデータ) (2023-08-16T06:01:12Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Identifiable Generative Models for Missing Not at Random Data Imputation [13.790820495804567]
多くの計算法は、MNARデータが存在する場合、その欠如を考慮に入れない。
本研究では,MNARにおける生成モデルの識別可能性について検討する。
軽微な仮定の下で識別可能性を保証する実用的な深層生成モデルを提案する。
論文 参考訳(メタデータ) (2021-10-27T18:51:38Z) - Deep Generative Pattern-Set Mixture Models for Nonignorable Missingness [0.0]
無視できないデータと無視できないデータの両方をモデル化する可変オートエンコーダアーキテクチャを提案する。
モデルでは,観測されたデータと欠落マスクに基づいて,欠落したデータを欠落パターンにクラスタ化することを明示的に学習する。
当社のセットアップでは,無知かつ無知な欠如の特性をトレードオフすることで,両タイプのデータに適用することが可能である。
論文 参考訳(メタデータ) (2021-03-05T08:21:35Z) - Learning from missing data with the Latent Block Model [0.5735035463793007]
本研究では、ランダムなデータに欠かせないデータを活用することを目的としたLatent Block Modelに基づくクラスタリングモデルを提案する。
予測最大化アルゴリズムを導出して推論を行い、モデル選択基準を示す。
論文 参考訳(メタデータ) (2020-10-23T08:11:43Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Model Fusion with Kullback--Leibler Divergence [58.20269014662046]
異種データセットから学習した後続分布を融合する手法を提案する。
我々のアルゴリズムは、融合モデルと個々のデータセット後部の両方に対する平均場仮定に依存している。
論文 参考訳(メタデータ) (2020-07-13T03:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。