論文の概要: Can synthetic data reproduce real-world findings in epidemiology? A replication study using tree-based generative AI
- arxiv url: http://arxiv.org/abs/2508.14936v1
- Date: Tue, 19 Aug 2025 22:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.032894
- Title: Can synthetic data reproduce real-world findings in epidemiology? A replication study using tree-based generative AI
- Title(参考訳): 合成データは疫学における現実世界の発見を再現できるか?木に基づく生成AIを用いた複製研究
- Authors: Jan Kapar, Kathrin Günther, Lori Ann Vallis, Klaus Berger, Nadine Binder, Hermann Brenner, Stefanie Castell, Beate Fischer, Volker Harth, Bernd Holleczek, Timm Intemann, Till Ittermann, André Karch, Thomas Keil, Lilian Krist, Berit Lange, Michael F. Leitzmann, Katharina Nimptsch, Nadia Obi, Iris Pigeot, Tobias Pischon, Tamara Schikowski, Börge Schmidt, Carsten Oliver Schmidt, Anja M. Sedlmair, Justine Tanoey, Harm Wienbergen, Andreas Wienke, Claudia Wigmann, Marvin N. Wright,
- Abstract要約: 疫学データを合成するための効率的かつ便利な方法として, 対向ランダム林(ARF)を提案する。
6つの疫学論文から統計学的解析を再現し,原本と合成結果を比較した。
複数の合成データ複製の結果は、元の結果と一貫して一致している。
- 参考スコア(独自算出の注目度): 0.6268282038459305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative artificial intelligence for synthetic data generation holds substantial potential to address practical challenges in epidemiology. However, many current methods suffer from limited quality, high computational demands, and complexity for non-experts. Furthermore, common evaluation strategies for synthetic data often fail to directly reflect statistical utility. Against this background, a critical underexplored question is whether synthetic data can reliably reproduce key findings from epidemiological research. We propose the use of adversarial random forests (ARF) as an efficient and convenient method for synthesizing tabular epidemiological data. To evaluate its performance, we replicated statistical analyses from six epidemiological publications and compared original with synthetic results. These publications cover blood pressure, anthropometry, myocardial infarction, accelerometry, loneliness, and diabetes, based on data from the German National Cohort (NAKO Gesundheitsstudie), the Bremen STEMI Registry U45 Study, and the Guelph Family Health Study. Additionally, we assessed the impact of dimensionality and variable complexity on synthesis quality by limiting datasets to variables relevant for individual analyses, including necessary derivations. Across all replicated original studies, results from multiple synthetic data replications consistently aligned with original findings. Even for datasets with relatively low sample size-to-dimensionality ratios, the replication outcomes closely matched the original results across various descriptive and inferential analyses. Reducing dimensionality and pre-deriving variables further enhanced both quality and stability of the results.
- Abstract(参考訳): 合成データ生成のための生成人工知能は、疫学の実践的な課題に対処する大きな可能性を秘めている。
しかし、現在の多くの手法は、制限された品質、高い計算要求、非専門家の複雑さに悩まされている。
さらに、合成データの一般的な評価戦略は、しばしば統計的効用を直接反映しない。
このような背景から、合成データが疫学研究から重要な発見を確実に再現できるかどうかが重要視されている。
本稿では,表層疫学的データを合成するための効率的かつ簡便な方法として,対向ランダム林(ARF)を提案する。
その性能を評価するため,6つの疫学論文から統計学的解析を再現し,オリジナルと合成結果を比較した。
これらの出版物は、ドイツ国立コーホート(NAKO Gesundheitsstudie)、ブレーメン STEMI Registry U45 Study、ゲルフ家族健康研究(英語版)のデータに基づいて、血圧、人文計測、心筋梗塞、加速度計、孤独感、糖尿病をカバーしている。
さらに,個々の分析に関係のある変数にデータセットを限定することにより,次元性や変数の複雑さが合成品質に与える影響を評価する。
すべての複製された元の研究、複数の合成データ複製の結果は、元の発見と一貫して一致している。
サンプルサイズ-次元比が比較的低いデータセットであっても、複製結果は様々な記述的および推論的分析で元の結果とよく一致した。
次元と派生変数の減少により、結果の品質と安定性がさらに向上した。
関連論文リスト
- Using Imperfect Synthetic Data in Downstream Inference Tasks [50.40949503799331]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を改善することができる。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Graph-Convolutional-Beta-VAE for Synthetic Abdominal Aorta Aneurysm Generation [4.363232795241618]
本研究は, 人工腹部大動脈瘤(AAA)生成のためのβ可変オートエンコーダグラフ畳み込みニューラルネットワークフレームワークを提案する。
提案手法は, 解剖学的特徴を抽出し, コンパクトな非絡み合い空間内での複雑な統計的関係を捉える。
合成AAAデータセットは患者のプライバシを保護し、医療研究、デバイステスト、計算モデリングのためのスケーラブルな基盤を提供する。
論文 参考訳(メタデータ) (2025-06-16T15:55:56Z) - An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval [51.10419281315848]
我々は,テキストベース人検索(TBPR)研究における合成データの可能性を探るため,実証的研究を行った。
本稿では,自動プロンプト構築戦略を導入するクラス間画像生成パイプラインを提案する。
我々は、画像のさらなる編集に生成AIモデルを応用した、クラス内画像拡張パイプラインを開発する。
論文 参考訳(メタデータ) (2025-03-28T06:18:15Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。