論文の概要: Combining propensity score methods with variational autoencoders for
generating synthetic data in presence of latent sub-groups
- arxiv url: http://arxiv.org/abs/2312.07781v1
- Date: Tue, 12 Dec 2023 22:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 17:25:02.537310
- Title: Combining propensity score methods with variational autoencoders for
generating synthetic data in presence of latent sub-groups
- Title(参考訳): 潜在性部分群の存在下で合成データを生成する変分オートエンコーダとプロペンサスコア法の組み合わせ
- Authors: Kiana Farhadyar, Federico Bonofiglio, Maren Hackenberg, Daniela
Zoeller, Harald Binder
- Abstract要約: ヘテロジニティは、例えば、サブグループラベルによって示されるように知られ、あるいは未知であり、双曲性や歪みのような分布の性質にのみ反映されるかもしれない。
本研究では,変分オートエンコーダ(VAE)から合成データを取得する際に,このような異種性をどのように保存し,制御するかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In settings requiring synthetic data generation based on a clinical cohort,
e.g., due to data protection regulations, heterogeneity across individuals
might be a nuisance that we need to control or faithfully preserve. The sources
of such heterogeneity might be known, e.g., as indicated by sub-groups labels,
or might be unknown and thus reflected only in properties of distributions,
such as bimodality or skewness. We investigate how such heterogeneity can be
preserved and controlled when obtaining synthetic data from variational
autoencoders (VAEs), i.e., a generative deep learning technique that utilizes a
low-dimensional latent representation. To faithfully reproduce unknown
heterogeneity reflected in marginal distributions, we propose to combine VAEs
with pre-transformations. For dealing with known heterogeneity due to
sub-groups, we complement VAEs with models for group membership, specifically
from propensity score regression. The evaluation is performed with a realistic
simulation design that features sub-groups and challenging marginal
distributions. The proposed approach faithfully recovers the latter, compared
to synthetic data approaches that focus purely on marginal distributions.
Propensity scores add complementary information, e.g., when visualized in the
latent space, and enable sampling of synthetic data with or without sub-group
specific characteristics. We also illustrate the proposed approach with real
data from an international stroke trial that exhibits considerable distribution
differences between study sites, in addition to bimodality. These results
indicate that describing heterogeneity by statistical approaches, such as
propensity score regression, might be more generally useful for complementing
generative deep learning for obtaining synthetic data that faithfully reflects
structure from clinical cohorts.
- Abstract(参考訳): 臨床コホートに基づく合成データ生成を必要とする設定では、例えば、データ保護規則により、個人間の不均一性は、我々が制御または忠実に保存する必要がある問題である。
そのような異種性の源は、例えば、部分群ラベルによって示されるように知られ、あるいは未知であり、したがって双曲性や歪みのような分布の性質にのみ反映される。
低次元の潜在表現を用いた生成的ディープラーニング手法である変分オートエンコーダ(vaes)から合成データを得る際に、そのような不均一性がどのように保存・制御されるかを検討する。
限界分布に反映される未知の不均一性を忠実に再現するために,VAEと事前変換を組み合わせることを提案する。
サブグループによる既知の不均一性に対処するため、vaesをグループメンバーシップモデル、特にプロペンサリティスコア回帰モデルで補完する。
この評価はサブグループと限界分布の挑戦を特徴とする現実的なシミュレーション設計を用いて行われる。
提案手法は, 極端分布にのみ焦点をあてた合成データ手法と比較して, 後者を忠実に回収する。
propensityスコアは、潜在空間で視覚化された場合など、補完的な情報を追加し、サブグループ固有の特性の有無に関わらず、合成データのサンプリングを可能にする。
また,本提案手法を,バイモーダリティに加えて,研究現場間でかなりの分布差を示す国際的ストロークトライアルの実際のデータを用いて述べる。
これらの結果から, 統計的アプローチによる不均一性の記述は, 臨床コホートから構造を忠実に反映した合成データを得るための生成的深層学習を補完する上で, より一般的に有用であることが示唆された。
関連論文リスト
- Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models [14.651592234678722]
現在の拡散モデルでは、トレーニングデータセットのバイアスを継承し、バイアス付き合成データを生成する傾向がある。
対象ラベルと感度属性のバランスの取れた結合分布を持つ公正な合成データを生成するために、センシティブガイダンスを組み込んだ新しいモデルを提案する。
本手法は, 得られたサンプルの品質を維持しつつ, トレーニングデータのバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-12T06:08:43Z) - Predictive Heterogeneity: Measures and Applications [26.85283526483783]
本稿では,モデルキャパシティと計算制約を考慮した表現可能な予測不均一性を提案する。
ほぼ正しい(PAC)境界を持つ有限データから確実に推定できることを示す。
実験的に、探索された異質性は、所得予測、収量予測、画像分類タスクにおけるサブ人口区分に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-04-01T12:20:06Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Heterogeneous Datasets for Federated Survival Analysis Simulation [6.489759672413373]
本研究では、既存の非フェデレーションデータセットから再現可能な方法で開始することで、現実的な異種データセットを構築する新しい手法を提案する。
具体的には、ディリクレ分布に基づく2つの新しいデータセット分割アルゴリズムを提供し、各データサンプルを慎重に選択したクライアントに割り当てる。
提案手法の実装は,フェデレートされた環境をシミュレートしてサバイバル分析を行うことを推奨し,広く普及している。
論文 参考訳(メタデータ) (2023-01-28T11:37:07Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Scalable Regularised Joint Mixture Models [2.0686407686198263]
多くの応用において、データは異なる基底分布を持つ潜在群にまたがるという意味で不均一である。
我々は,(i)明示的多変量特徴分布,(ii)高次元回帰モデル,(iii)潜在群ラベルの連成学習を可能にする異種データに対するアプローチを提案する。
このアプローチは明らかに高次元において有効であり、計算効率のためのデータ削減と、特徴数が大きければ鍵信号を保持する再重み付けスキームを組み合わせる。
論文 参考訳(メタデータ) (2022-05-03T13:38:58Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Modelling Heterogeneity Using Bayesian Structured Sparsity [0.0]
観察間で異なる変数の効果を推定する方法は、政治科学において重要な問題です。
本稿では,複雑な現象(同様の現象を離散群に展開する観測)を回帰分析に組み込む共通の方法を提案する。
論文 参考訳(メタデータ) (2021-03-29T19:54:25Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。