論文の概要: Bayesian data combination model with Gaussian process latent variable
model for mixed observed variables under NMAR missingness
- arxiv url: http://arxiv.org/abs/2109.00462v1
- Date: Wed, 1 Sep 2021 16:09:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 14:14:02.637941
- Title: Bayesian data combination model with Gaussian process latent variable
model for mixed observed variables under NMAR missingness
- Title(参考訳): nmarの欠落下での混合観測変数に対するガウス過程潜在変数モデルとベイズデータ結合モデル
- Authors: Masaki Mitsuhiro, Takahiro Hoshino
- Abstract要約: 興味のある変数を同時に観測する「(準)単一ソースデータセット」を得ることは困難である。
これらのデータセットは、変数が不足した単一ソースデータセットとして利用する必要がある。
本稿では,データセットが同種であると仮定しないデータ融合法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the analysis of observational data in social sciences and businesses, it
is difficult to obtain a "(quasi) single-source dataset" in which the variables
of interest are simultaneously observed. Instead, multiple-source datasets are
typically acquired for different individuals or units. Various methods have
been proposed to investigate the relationship between the variables in each
dataset, e.g., matching and latent variable modeling. It is necessary to
utilize these datasets as a single-source dataset with missing variables.
Existing methods assume that the datasets to be integrated are acquired from
the same population or that the sampling depends on covariates. This assumption
is referred to as missing at random (MAR) in terms of missingness. However, as
will been shown in application studies, it is likely that this assumption does
not hold in actual data analysis and the results obtained may be biased. We
propose a data fusion method that does not assume that datasets are homogenous.
We use a Gaussian process latent variable model for non-MAR missing data. This
model assumes that the variables of concern and the probability of being
missing depend on latent variables. A simulation study and real-world data
analysis show that the proposed method with a missing-data mechanism and the
latent Gaussian process yields valid estimates, whereas an existing method
provides severely biased estimates. This is the first study in which non-random
assignment to datasets is considered and resolved under resonable assumptions
in data fusion problem.
- Abstract(参考訳): 社会科学や企業における観測データの分析において,興味のある変数を同時に観測する「(quasi)単一ソースデータセット」を得ることは困難である。
代わりに、複数のソースデータセットは通常、異なる個人またはユニットに対して取得される。
各データセット内の変数,例えばマッチングと潜在変数モデリングの関係を調査するために,様々な手法が提案されている。
これらのデータセットは、変数が不足した単一ソースデータセットとして利用する必要がある。
既存の方法は、統合されるデータセットは同じ集団から取得されるか、サンプリングが共変量に依存すると仮定している。
この仮定は、欠落の観点でランダム(mar)における欠落 ( missing) と呼ばれる。
しかし、応用研究で示されたように、この仮定は実際のデータ分析には当てはまらない可能性があり、得られた結果は偏っている可能性がある。
本稿では,データセットが均質であると仮定しないデータ融合手法を提案する。
我々は非MAR欠落データに対してガウス過程潜在変数モデルを用いる。
このモデルは、関心の変数と欠落の確率が潜在変数に依存すると仮定する。
シミュレーション研究と実世界のデータ分析により,提案手法が欠落データ機構と潜伏ガウス過程によって有効な推定値が得られるのに対し,既存手法は極めて偏りのある推定値を提供することを示した。
これは、データセットにランダムでない割り当てを考慮し、データ融合問題における共振可能な仮定の下で解決する最初の研究である。
関連論文リスト
- Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - A Graphical Model for Fusing Diverse Microbiome Data [2.385985842958366]
本稿では,このような数値データを共同でモデル化するフレキシブルな多項ガウス生成モデルを提案する。
本稿では、潜在変数とモデルのパラメータを推定するための、計算にスケーラブルな変動予測-最大化(EM)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-21T17:54:39Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z) - Variational Selective Autoencoder: Learning from Partially-Observed
Heterogeneous Data [45.23338389559936]
本研究では,部分観測された異種データから表現を学習するための変分選択型オートエンコーダ(VSAE)を提案する。
vsaeは、観測データ、観測されていないデータ、およびインプテーションマスクの合同分布をモデル化することで、異種データの潜在依存関係を学習する。
その結果、データ生成や計算を含むさまざまな下流タスクの統一モデルが実現される。
論文 参考訳(メタデータ) (2021-02-25T04:39:13Z) - The UU-test for Statistical Modeling of Unimodal Data [0.20305676256390928]
一次元データセットの一様性を決定するUUテスト(Unimodal Uniform test)手法を提案する。
このアプローチのユニークな特徴は、一様性の場合、一様混合モデルという形でデータの統計モデルも提供することである。
論文 参考訳(メタデータ) (2020-08-28T08:34:28Z) - Tell Me Something I Don't Know: Randomization Strategies for Iterative
Data Mining [0.6100370338020054]
我々は、以前に発見されたパターンやモデルを考慮に入れられるように、データのランダム化の問題を考える。
本稿では,以前に発見されたパターンやモデルを考慮に入れたデータランダム化の問題について考察する。
論文 参考訳(メタデータ) (2020-06-16T19:20:50Z) - Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。
本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。
我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-06-09T06:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。