論文の概要: A Technical Exploration of Causal Inference with Hybrid LLM Synthetic Data
- arxiv url: http://arxiv.org/abs/2511.00318v1
- Date: Fri, 31 Oct 2025 23:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.714386
- Title: A Technical Exploration of Causal Inference with Hybrid LLM Synthetic Data
- Title(参考訳): ハイブリッドLLM合成データを用いた因果推論の技術的探索
- Authors: Dana Kim, Yichen Xu, Tiffany Lin,
- Abstract要約: 大規模言語モデル(LLM)は、合成データを生成する柔軟な手段を提供する。
既存のアプローチでは、平均処理効果(ATE)のような主要な因果パラメータを保存できない場合が多い。
- 参考スコア(独自算出の注目度): 3.121656940390038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) offer a flexible means to generate synthetic tabular data, yet existing approaches often fail to preserve key causal parameters such as the average treatment effect (ATE). In this technical exploration, we first demonstrate that state-of-the-art synthetic data generators, both GAN- and LLM-based, can achieve high predictive fidelity while substantially misestimating causal effects. To address this gap, we propose a hybrid generation framework that combines model-based covariate synthesis (monitored via distance-to-closest-record filtering) with separately learned propensity and outcome models, thereby ensuring that (W, A, Y) triplets retain their underlying causal structure. We further introduce a synthetic pairing strategy to mitigate positivity violations and a realistic evaluation protocol that leverages unlimited synthetic samples to benchmark traditional estimators (IPTW, AIPW, substitution) under complex covariate distributions. This work lays the groundwork for LLM-powered data pipelines that support robust causal analysis. Our code is available at https://github.com/Xyc-arch/llm-synthetic-for-causal-inference.git.
- Abstract(参考訳): 大規模言語モデル(LLM)は、合成表データを生成する柔軟な手段を提供するが、既存のアプローチでは平均処理効果(ATE)のような主要な因果パラメータを保存できないことが多い。
この技術的調査において、我々は、現在最先端の合成データ生成装置(GAN-およびLLM-ベース)が、因果効果を著しく誤算しながら高い予測精度を達成できることを初めて実証した。
このギャップに対処するために,モデルベース共変量合成(距離-閉包-記録フィルタリングによるモニタリング)と別々に学習された確率と結果モデルを組み合わせるハイブリッド生成フレームワークを提案する。
さらに, 共変量分布下での従来の推定値 (IPTW, AIPW, 置換) をベンチマークするために, 無制限な合成サンプルを利用する実例評価プロトコルを導入する。
この研究は、堅牢な因果解析をサポートするLLM駆動のデータパイプラインの基礎となる。
私たちのコードはhttps://github.com/Xyc-arch/llm-synthetic-for-causal-inference.gitで利用可能です。
関連論文リスト
- Beyond Real Data: Synthetic Data through the Lens of Regularization [9.459299281438074]
合成データは、実際のデータが不足しているときに一般化を改善することができるが、過度な依存は、性能を低下させる分布ミスマッチをもたらす可能性がある。
本稿では,合成データと実データとのトレードオフを定量化する学習理論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T11:33:09Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - LLMSynthor: Macro-Aligned Micro-Records Synthesis with Large Language Models [20.767947974005168]
LLM Synthorは、ターゲットのマクロ統計と一致した現実的なマイクロレコードを生成するマクロ認識シミュレータである。
合成データセットを反復的に構築し、合成アグリゲーションとターゲットアグリゲーションの差を最小限に抑える。
強力な現実主義、統計的忠実さ、実用性を実現し、経済学、社会科学、都市研究に広く応用されている。
論文 参考訳(メタデータ) (2025-05-20T13:35:38Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡な分類と急激な相関は、データサイエンスと機械学習における一般的な課題である。
近年の進歩は、大規模言語モデルの柔軟性と生成能力を生かして合成サンプルを生成することを提案した。
本稿では,不均衡な分類とスプリアス相関に対処する上で,合成試料の役割を体系的に研究する新たな理論基盤を開発する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。