論文の概要: Generative Synthetic Data for Causal Inference: Pitfalls, Remedies, and Opportunities
- arxiv url: http://arxiv.org/abs/2604.23904v1
- Date: Sun, 26 Apr 2026 22:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.671753
- Title: Generative Synthetic Data for Causal Inference: Pitfalls, Remedies, and Opportunities
- Title(参考訳): 因果推論のための生成的合成データ:落とし穴、治療、機会
- Authors: Yichen Xu,
- Abstract要約: 合成データは、プライバシ保護データリリース、拡張、シミュレーションのための有望なツールを提供する。
しかし、因果推論での使用には、予測的忠実性以上のものを保存する必要がある。
GANとLCMをベースとしたモデルを含む,完全生成型表層合成器は,強い合成・テスト・オン・リアルな性能を実現することができることを示す。
- 参考スコア(独自算出の注目度): 4.144744763257738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data offers a promising tool for privacy-preserving data release, augmentation, and simulation, but its use in causal inference requires preserving more than predictive fidelity. We show that fully generative tabular synthesizers, including GAN- and LLM-based models, can achieve strong train-on-synthetic-test-on-real performance while substantially distorting causal estimands such as the average treatment effect (ATE). We formalize this failure through sensitivity and tradeoff results showing that ATE preservation requires control of both the generated covariate law and the treatment-effect contrast in the outcome regression. Motivated by this observation, we propose a hybrid synthetic-data framework that generates covariates separately from the treatment and outcome mechanisms, using distance-to-closest-record diagnostics to monitor covariate synthesis and separately learned nuisance models to construct (W, A, Y) triplets. We further study targeted synthetic augmentation for practical positivity problems and characterize when added overlap support helps by improving conditional-effect estimation more than it shifts the covariate distribution. Finally, we develop a synthetic simulation engine for pre-analysis estimator evaluation, enabling finite-sample comparison of OR, IPW, AIPW, and TMLE under realistic covariate structure. Across experiments, hybrid synthetic data substantially improve ATE preservation relative to fully generative baselines and provide a practical diagnostic tool for robust causal analysis.
- Abstract(参考訳): 合成データは、プライバシ保護データリリース、拡張、シミュレーションのための有望なツールを提供するが、因果推論での使用には、予測忠実性以上の保存が必要である。
GANモデルやLLMモデルを含む完全生成型表層合成器は,平均処理効果(ATE)などの因果推定値を実質的に歪曲しながら,強い合成・テスト・オン・リアルな性能が得られることを示す。
我々は、この障害を感度およびトレードオフ結果によって形式化し、ATE保存には、生成した共変量法と結果の回帰における処理効果のコントラストの両方を制御する必要があることを示す。
そこで本研究では,コバリエート合成の監視と,(W, A, Y)三重項構築のために個別に学習したニュアンスモデル構築のための距離-閉記録診断を用いて,コバリネートを治療と結果のメカニズムから分離して生成するハイブリッド合成データフレームワークを提案する。
さらに, 共変量分布のシフトよりも条件-効果推定を改善することで, 実用的肯定的問題に対する目的の合成拡張と, 重なり合い支援による特徴付けについて検討した。
最後に,実時間共変量構造下でのOR,IPW,AIPW,TMLEの有限サンプル比較を可能にする,分析前評価のための合成シミュレーションエンジンを開発した。
実験全体を通して、ハイブリッド合成データは、完全な生成ベースラインに対するATE保存を大幅に改善し、堅牢な因果解析のための実用的な診断ツールを提供する。
関連論文リスト
- CausalWrap: Model-Agnostic Causal Constraint Wrappers for Tabular Synthetic Data [4.08271266107383]
CausalWrapは、事前訓練されたベースジェネレータに部分的な因果知識を注入するモデルに依存しないラッパーである。
CWは、ベースジェネレータからのサンプルに適用された軽量で微分可能なポストホック補正マップを学習する。
CWは多様なベースジェネレータ間の因果性を改善する。
論文 参考訳(メタデータ) (2026-03-02T15:59:46Z) - A Technical Exploration of Causal Inference with Hybrid LLM Synthetic Data [3.121656940390038]
大規模言語モデル(LLM)は、合成データを生成する柔軟な手段を提供する。
既存のアプローチでは、平均処理効果(ATE)のような主要な因果パラメータを保存できない場合が多い。
論文 参考訳(メタデータ) (2025-10-31T23:34:44Z) - Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。
現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。
本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文 参考訳(メタデータ) (2025-10-21T16:16:00Z) - Beyond Real Data: Synthetic Data through the Lens of Regularization [9.459299281438074]
合成データは、実際のデータが不足しているときに一般化を改善することができるが、過度な依存は、性能を低下させる分布ミスマッチをもたらす可能性がある。
本稿では,合成データと実データとのトレードオフを定量化する学習理論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T11:33:09Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Efficient adjustment for complex covariates: Gaining efficiency with
DOPE [56.537164957672715]
共変量によって表現される情報のサブセットを調整可能なフレームワークを提案する。
理論的な結果に基づいて,平均処理効果(ATE)の効率的な評価を目的とした,デバイアスドアウトカム適応確率推定器(DOPE)を提案する。
その結果,DOPE は様々な観測環境において ATE 推定のための効率的かつ堅牢な手法を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-20T13:02:51Z) - CATE Estimation With Potential Outcome Imputation From Local Regression [24.97657507206549]
本研究では,条件付き平均処理効果推定のためのモデルに依存しないデータ拡張手法を提案する。
このアイデアにインスパイアされた我々は、潜在的に欠落する可能性を確実に示唆する対照的な学習手法を提案する。
提案手法の有効性を実証する理論的保証と広範な数値的研究の両方を提供する。
論文 参考訳(メタデータ) (2023-11-07T00:36:51Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。