論文の概要: Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference
- arxiv url: http://arxiv.org/abs/2510.18768v1
- Date: Tue, 21 Oct 2025 16:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.841636
- Title: Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference
- Title(参考訳): 下流医療因果推論のための合成データの生成と評価の改善
- Authors: Harry Amad, Zhaozhi Qian, Dennis Frauen, Julianna Piskorz, Stefan Feuerriegel, Mihaela van der Schaar,
- Abstract要約: 因果推論は医療介入の開発と評価に不可欠である。
現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。
本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
- 参考スコア(独自算出の注目度): 89.5628648718851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Causal inference is essential for developing and evaluating medical interventions, yet real-world medical datasets are often difficult to access due to regulatory barriers. This makes synthetic data a potentially valuable asset that enables these medical analyses, along with the development of new inference methods themselves. Generative models can produce synthetic data that closely approximate real data distributions, yet existing methods do not consider the unique challenges that downstream causal inference tasks, and specifically those focused on treatments, pose. We establish a set of desiderata that synthetic data containing treatments should satisfy to maximise downstream utility: preservation of (i) the covariate distribution, (ii) the treatment assignment mechanism, and (iii) the outcome generation mechanism. Based on these desiderata, we propose a set of evaluation metrics to assess such synthetic data. Finally, we present STEAM: a novel method for generating Synthetic data for Treatment Effect Analysis in Medicine that mimics the data-generating process of data containing treatments and optimises for our desiderata. We empirically demonstrate that STEAM achieves state-of-the-art performance across our metrics as compared to existing generative models, particularly as the complexity of the true data-generating process increases.
- Abstract(参考訳): 因果推論は医療介入の開発と評価に不可欠であるが、現実の医療データセットは規制上の障壁のためにアクセスが困難であることが多い。
これにより、合成データは、新しい推論手法自体の開発とともに、これらの医学的分析を可能にする潜在的に価値のある資産となる。
生成モデルは、実際のデータ分布を近似した合成データを生成することができるが、既存の手法では、下流の因果推論タスク、特に治療に焦点を当てた課題は考慮されていない。
我々は,治療を含む合成データが下流の有用性を最大化するために満足すべきデシラタ(deiderata)のセットを確立する。
(i)共変量分布
二 治療代行機構及び
(三)結果生成機構
これらのデシラタに基づいて,このような合成データを評価するための評価指標のセットを提案する。
最後に,医療における治療効果分析のための新しいデータ生成法であるSTEAMについて述べる。
我々は、STEAMが既存の生成モデルと比較した場合、特に真のデータ生成プロセスの複雑さが増大するにつれて、メトリクス全体で最先端のパフォーマンスを達成することを実証的に実証した。
関連論文リスト
- Forecasting-Based Biomedical Time-series Data Synthesis for Open Data and Robust AI [0.841508985473488]
本稿では,先進的な予測モデルに基づく生医学的時系列データ生成のためのフレームワークを提案する。
これらの合成データセットは、実データの本質的時間的およびスペクトル的特性を保存している。
論文 参考訳(メタデータ) (2025-10-06T09:32:10Z) - Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - TarDiff: Target-Oriented Diffusion Guidance for Synthetic Electronic Health Record Time Series Generation [26.116599951658454]
時系列生成は臨床機械学習モデルの進歩に不可欠である。
観測データのみに対する忠実性は、モデル性能の向上を保証するものではない、と我々は主張する。
タスク固有のインフルエンスガイダンスを統合した,新たなターゲット指向拡散フレームワークであるTarDiffを提案する。
論文 参考訳(メタデータ) (2025-04-24T14:36:10Z) - Enhancing Indoor Temperature Forecasting through Synthetic Data in Low-Data Environments [42.8983261737774]
合成データ生成のためのSoTA AI を用いたデータ拡張手法の有効性について検討する。
そこで本研究では,実データと合成データの融合戦略を探求し,予測モデルの改善を図る。
論文 参考訳(メタデータ) (2024-06-07T12:36:31Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Evaluation of the Synthetic Electronic Health Records [3.255030588361125]
本研究は、合成データセットのサンプルワイズ評価のための類似性と特異性という2つの指標を概説する。
本研究は,Cystic Fibrosis (CF) 患者の電子的健康記録を合成するために,いくつかの最先端の遺伝子モデルを用いて提案された概念を実証する。
論文 参考訳(メタデータ) (2022-10-16T22:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。