Fugu-MT 論文翻訳(概要): Combining propensity score methods with variational autoencoders for generating synthetic data in presence of latent sub-groups

論文の概要: Combining propensity score methods with variational autoencoders for generating synthetic data in presence of latent sub-groups

arxiv url: http://arxiv.org/abs/2312.07781v1
Date: Tue, 12 Dec 2023 22:49:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-14 17:25:02.537310
Title: Combining propensity score methods with variational autoencoders for generating synthetic data in presence of latent sub-groups
Title（参考訳）: 潜在性部分群の存在下で合成データを生成する変分オートエンコーダとプロペンサスコア法の組み合わせ
Authors: Kiana Farhadyar, Federico Bonofiglio, Maren Hackenberg, Daniela Zoeller, Harald Binder
Abstract要約: ヘテロジニティは、例えば、サブグループラベルによって示されるように知られ、あるいは未知であり、双曲性や歪みのような分布の性質にのみ反映されるかもしれない。本研究では,変分オートエンコーダ(VAE)から合成データを取得する際に,このような異種性をどのように保存し,制御するかを検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In settings requiring synthetic data generation based on a clinical cohort, e.g., due to data protection regulations, heterogeneity across individuals might be a nuisance that we need to control or faithfully preserve. The sources of such heterogeneity might be known, e.g., as indicated by sub-groups labels, or might be unknown and thus reflected only in properties of distributions, such as bimodality or skewness. We investigate how such heterogeneity can be preserved and controlled when obtaining synthetic data from variational autoencoders (VAEs), i.e., a generative deep learning technique that utilizes a low-dimensional latent representation. To faithfully reproduce unknown heterogeneity reflected in marginal distributions, we propose to combine VAEs with pre-transformations. For dealing with known heterogeneity due to sub-groups, we complement VAEs with models for group membership, specifically from propensity score regression. The evaluation is performed with a realistic simulation design that features sub-groups and challenging marginal distributions. The proposed approach faithfully recovers the latter, compared to synthetic data approaches that focus purely on marginal distributions. Propensity scores add complementary information, e.g., when visualized in the latent space, and enable sampling of synthetic data with or without sub-group specific characteristics. We also illustrate the proposed approach with real data from an international stroke trial that exhibits considerable distribution differences between study sites, in addition to bimodality. These results indicate that describing heterogeneity by statistical approaches, such as propensity score regression, might be more generally useful for complementing generative deep learning for obtaining synthetic data that faithfully reflects structure from clinical cohorts.
Abstract（参考訳）: 臨床コホートに基づく合成データ生成を必要とする設定では、例えば、データ保護規則により、個人間の不均一性は、我々が制御または忠実に保存する必要がある問題である。そのような異種性の源は、例えば、部分群ラベルによって示されるように知られ、あるいは未知であり、したがって双曲性や歪みのような分布の性質にのみ反映される。低次元の潜在表現を用いた生成的ディープラーニング手法である変分オートエンコーダ(vaes)から合成データを得る際に、そのような不均一性がどのように保存・制御されるかを検討する。限界分布に反映される未知の不均一性を忠実に再現するために,VAEと事前変換を組み合わせることを提案する。サブグループによる既知の不均一性に対処するため、vaesをグループメンバーシップモデル、特にプロペンサリティスコア回帰モデルで補完する。この評価はサブグループと限界分布の挑戦を特徴とする現実的なシミュレーション設計を用いて行われる。提案手法は, 極端分布にのみ焦点をあてた合成データ手法と比較して, 後者を忠実に回収する。 propensityスコアは、潜在空間で視覚化された場合など、補完的な情報を追加し、サブグループ固有の特性の有無に関わらず、合成データのサンプリングを可能にする。また,本提案手法を,バイモーダリティに加えて,研究現場間でかなりの分布差を示す国際的ストロークトライアルの実際のデータを用いて述べる。これらの結果から, 統計的アプローチによる不均一性の記述は, 臨床コホートから構造を忠実に反映した合成データを得るための生成的深層学習を補完する上で, より一般的に有用であることが示唆された。

関連論文リスト

Covariate-assisted Grade of Membership Models via Shared Latent Geometry [0.7939348535496568]
メンバーシップモデルのグレードは、個人レベルの混合メンバーシップスコアを通して多変量カテゴリデータを解析するための柔軟な潜在変数モデルである。補助共変量体を組み込む従来のアプローチは、一般に完全に指定された関節の確率に依存しており、計算的に集中しており、誤特定に敏感である。我々は,共変量支援型メンバシップモデルを導入し,共変量情報を統合する。
論文参考訳（メタデータ） (2026-01-24T02:30:36Z)
Towards Syn-to-Real IQA: A Novel Perspective on Reshaping Synthetic Data Distributions [74.00222571094437]
Blind Image Quality Assessment (BIQA)はディープラーニングを通じて大幅に進歩しているが、大規模なラベル付きデータセットの不足は依然として課題である。合成データセットから学習した表現は、しばしば回帰性能を妨げる離散的かつクラスタ化されたパターンを示す。本稿では,BIQAの一般化を促進するために,合成データ分布を再考する新しいフレームワークであるSynDR-IQAを紹介する。
論文参考訳（メタデータ） (2026-01-01T06:11:16Z)
Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文参考訳（メタデータ） (2025-10-21T16:16:00Z)
High-dimensional Analysis of Synthetic Data Selection [44.67519806837088]
線形モデルでは,対象分布と合成データの分布の共分散が一般化誤差に影響を与えることを示す。興味深いことに、線形モデルからの理論的な洞察は、ディープニューラルネットワークと生成モデルに受け継がれる。
論文参考訳（メタデータ） (2025-10-09T12:06:31Z)
Generating Feasible and Diverse Synthetic Populations Using Diffusion Models [5.689443449061003]
集団合成は、人口の人工的かつ現実的な表現を生成することに関わる重要な課題である。深層生成モデルは、実際の集団に存在するがサンプルデータには存在しない可能性のある属性の組み合わせを合成することができる。本研究では,新しい拡散モデルに基づく集団合成法を提案し,その基礎となる集団の結合分布を推定する。
論文参考訳（メタデータ） (2025-08-06T03:11:27Z)
Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges [68.98973318553983]
本稿では,Dual Diffusion Implicit Bridges (DDIB) に基づくフレームワークを提案する。我々は、生物学的に意味のある方法で摂動シグナルを伝達するために遺伝子制御ネットワーク(GRN)情報を統合する。また、サイレント遺伝子を予測し、生成したプロファイルの品質を向上させるためのマスキング機構も組み込んだ。
論文参考訳（メタデータ） (2025-06-26T09:05:38Z)
Leveraging Diffusion Models for Synthetic Data Augmentation in Protein Subcellular Localization Classification [0.0]
ラベル一貫性を持つサンプルを生成するために,クラス条件記述拡散確率モデル(DDPM)を実装した。私たちは、Mix LossとMix Representationという2つのハイブリッドトレーニング戦略を通じて、実際のデータとの統合を検討します。本研究は, バイオメディカル画像分類に生成増強を取り入れた場合の, 現実的なデータ生成と堅牢な管理の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-05-28T22:58:50Z)
Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文参考訳（メタデータ） (2024-04-24T09:04:36Z)
Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models [14.651592234678722]
現在の拡散モデルでは、トレーニングデータセットのバイアスを継承し、バイアス付き合成データを生成する傾向がある。対象ラベルと感度属性のバランスの取れた結合分布を持つ公正な合成データを生成するために、センシティブガイダンスを組み込んだ新しいモデルを提案する。本手法は, 得られたサンプルの品質を維持しつつ, トレーニングデータのバイアスを効果的に軽減する。
論文参考訳（メタデータ） (2024-04-12T06:08:43Z)
Predictive Heterogeneity: Measures and Applications [26.85283526483783]
本稿では,モデルキャパシティと計算制約を考慮した表現可能な予測不均一性を提案する。ほぼ正しい(PAC)境界を持つ有限データから確実に推定できることを示す。実験的に、探索された異質性は、所得予測、収量予測、画像分類タスクにおけるサブ人口区分に関する洞察を提供する。
論文参考訳（メタデータ） (2023-04-01T12:20:06Z)
Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T14:49:59Z)
Heterogeneous Datasets for Federated Survival Analysis Simulation [6.489759672413373]
本研究では、既存の非フェデレーションデータセットから再現可能な方法で開始することで、現実的な異種データセットを構築する新しい手法を提案する。具体的には、ディリクレ分布に基づく2つの新しいデータセット分割アルゴリズムを提供し、各データサンプルを慎重に選択したクライアントに割り当てる。提案手法の実装は,フェデレートされた環境をシミュレートしてサバイバル分析を行うことを推奨し,広く普及している。
論文参考訳（メタデータ） (2023-01-28T11:37:07Z)
Characterization and Greedy Learning of Gaussian Structural Causal Models under Unknown Interventions [4.993565079216378]
我々は、GnIESと呼ばれる欲求アルゴリズムを用いて、介入対象の知識のないデータ生成モデルの等価クラスを復元する。さらに,本論文では,半合成データセットを未知の因果基底真理で生成する手法を開発した。
論文参考訳（メタデータ） (2022-11-27T17:37:21Z)
Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文参考訳（メタデータ） (2022-10-24T08:57:55Z)
Scalable Regularised Joint Mixture Models [2.0686407686198263]
多くの応用において、データは異なる基底分布を持つ潜在群にまたがるという意味で不均一である。我々は,(i)明示的多変量特徴分布,(ii)高次元回帰モデル,(iii)潜在群ラベルの連成学習を可能にする異種データに対するアプローチを提案する。このアプローチは明らかに高次元において有効であり、計算効率のためのデータ削減と、特徴数が大きければ鍵信号を保持する再重み付けスキームを組み合わせる。
論文参考訳（メタデータ） (2022-05-03T13:38:58Z)
Bootstrapping Your Own Positive Sample: Contrastive Learning With Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。 EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文参考訳（メタデータ） (2021-04-07T06:02:04Z)
Modelling Heterogeneity Using Bayesian Structured Sparsity [0.0]
観察間で異なる変数の効果を推定する方法は、政治科学において重要な問題です。本稿では,複雑な現象(同様の現象を離散群に展開する観測)を回帰分析に組み込む共通の方法を提案する。
論文参考訳（メタデータ） (2021-03-29T19:54:25Z)
Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文参考訳（メタデータ） (2020-07-06T15:59:28Z)
Asymptotic Analysis of an Ensemble of Randomly Projected Linear Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文参考訳（メタデータ） (2020-04-17T12:47:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。