論文の概要: Model-based Clustering with Missing Not At Random Data
- arxiv url: http://arxiv.org/abs/2112.10425v1
- Date: Mon, 20 Dec 2021 09:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 15:47:44.394223
- Title: Model-based Clustering with Missing Not At Random Data
- Title(参考訳): ランダムデータに欠落したモデルベースクラスタリング
- Authors: Aude Sportisse (CRISAM, UCA), Christophe Biernacki (CNRS), Claire
Boyer (SU), Julie Josse (CRISAM, IDESP), Matthieu Marbac Lourdelle
(UNIV-RENNES, ENSAI, CNRS, CREST), Gilles Celeux, Fabien Laporte (UCO)
- Abstract要約: 本研究では,MNAR(Missing Not At Random)データをモデルベースクラスタリングアルゴリズムに直接埋め込む手法を提案する。
意味のあるMNARサブモデルの大規模なセットを導出し,各サブモデルのパラメータの同定可能性について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent decades, technological advances have made it possible to collect
large data sets. In this context, the model-based clustering is a very popular,
flexible and interpretable methodology for data exploration in a well-defined
statistical framework. One of the ironies of the increase of large datasets is
that missing values are more frequent. However, traditional ways (as discarding
observations with missing values or imputation methods) are not designed for
the clustering purpose. In addition, they rarely apply to the general case,
though frequent in practice, of Missing Not At Random (MNAR) values, i.e. when
the missingness depends on the unobserved data values and possibly on the
observed data values. The goal of this paper is to propose a novel approach by
embedding MNAR data directly within model-based clustering algorithms. We
introduce a selection model for the joint distribution of data and missing-data
indicator. It corresponds to a mixture model for the data distribution and a
general MNAR model for the missing-data mechanism, which may depend on the
underlying classes (unknown) and/or the values of the missing variables
themselves. A large set of meaningful MNAR sub-models is derived and the
identifiability of the parameters is studied for each of the sub-models, which
is usually a key issue for any MNAR proposals. The EM and Stochastic EM
algorithms are considered for estimation. Finally, we perform empirical
evaluations for the proposed submodels on synthetic data and we illustrate the
relevance of our method on a medical register, the TraumaBase (R) dataset.
- Abstract(参考訳): 近年、技術進歩により、大規模なデータセットの収集が可能になった。
この文脈では、モデルベースのクラスタリングは、よく定義された統計フレームワークにおけるデータ探索のための非常に人気があり、柔軟で解釈可能な方法論である。
大規模なデータセットの増加の皮肉のひとつは、値の欠落が頻繁に発生することだ。
しかしながら、従来の方法(値の欠如やインプテーションメソッドによる観測を破棄するなど)は、クラスタリングの目的のために設計されていない。
さらに、一般的には適用されないが、MNAR(Missing Not At Random)の値、すなわち、欠落が観測されていないデータ値と観測されたデータ値に依存する場合などに適用されることは稀である。
本研究の目的は,MNARデータをモデルベースクラスタリングアルゴリズムに直接埋め込む手法を提案することである。
データの連立分布と欠落データ指標の選択モデルを提案する。
データ分散のための混合モデルと、欠落データ機構のための一般的なMNARモデルに対応しており、基礎となるクラス(未知)や欠落変数自体の値に依存する可能性がある。
有意義なmnarサブモデルの大規模なセットが導出され、パラメータの識別性が各サブモデルについて研究される。
EMとStochasticのEMアルゴリズムを推定する。
最後に,提案したサブモデルの合成データに対する経験的評価を行い,TraumaBase(R)データセットを用いて本手法の有効性について述べる。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Deep Generative Imputation Model for Missing Not At Random Data [13.56794299885683]
我々は、潜伏空間における現実の欠落メカニズムを処理するために、GNRと呼ばれる深い生成的計算モデルを利用する。
実験の結果,GNRは最先端のMNARベースラインをはるかに超え,有意なマージンを有することが明らかとなった。
論文 参考訳(メタデータ) (2023-08-16T06:01:12Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Identifiable Generative Models for Missing Not at Random Data Imputation [13.790820495804567]
多くの計算法は、MNARデータが存在する場合、その欠如を考慮に入れない。
本研究では,MNARにおける生成モデルの識別可能性について検討する。
軽微な仮定の下で識別可能性を保証する実用的な深層生成モデルを提案する。
論文 参考訳(メタデータ) (2021-10-27T18:51:38Z) - Deep Generative Pattern-Set Mixture Models for Nonignorable Missingness [0.0]
無視できないデータと無視できないデータの両方をモデル化する可変オートエンコーダアーキテクチャを提案する。
モデルでは,観測されたデータと欠落マスクに基づいて,欠落したデータを欠落パターンにクラスタ化することを明示的に学習する。
当社のセットアップでは,無知かつ無知な欠如の特性をトレードオフすることで,両タイプのデータに適用することが可能である。
論文 参考訳(メタデータ) (2021-03-05T08:21:35Z) - Learning from missing data with the Latent Block Model [0.5735035463793007]
本研究では、ランダムなデータに欠かせないデータを活用することを目的としたLatent Block Modelに基づくクラスタリングモデルを提案する。
予測最大化アルゴリズムを導出して推論を行い、モデル選択基準を示す。
論文 参考訳(メタデータ) (2020-10-23T08:11:43Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Model Fusion with Kullback--Leibler Divergence [58.20269014662046]
異種データセットから学習した後続分布を融合する手法を提案する。
我々のアルゴリズムは、融合モデルと個々のデータセット後部の両方に対する平均場仮定に依存している。
論文 参考訳(メタデータ) (2020-07-13T03:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。