論文の概要: Can synthetic data reproduce real-world findings in epidemiology? A replication study using tree-based generative AI
- arxiv url: http://arxiv.org/abs/2508.14936v1
- Date: Tue, 19 Aug 2025 22:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.032894
- Title: Can synthetic data reproduce real-world findings in epidemiology? A replication study using tree-based generative AI
- Title(参考訳): 合成データは疫学における現実世界の発見を再現できるか?木に基づく生成AIを用いた複製研究
- Authors: Jan Kapar, Kathrin Günther, Lori Ann Vallis, Klaus Berger, Nadine Binder, Hermann Brenner, Stefanie Castell, Beate Fischer, Volker Harth, Bernd Holleczek, Timm Intemann, Till Ittermann, André Karch, Thomas Keil, Lilian Krist, Berit Lange, Michael F. Leitzmann, Katharina Nimptsch, Nadia Obi, Iris Pigeot, Tobias Pischon, Tamara Schikowski, Börge Schmidt, Carsten Oliver Schmidt, Anja M. Sedlmair, Justine Tanoey, Harm Wienbergen, Andreas Wienke, Claudia Wigmann, Marvin N. Wright,
- Abstract要約: 疫学データを合成するための効率的かつ便利な方法として, 対向ランダム林(ARF)を提案する。
6つの疫学論文から統計学的解析を再現し,原本と合成結果を比較した。
複数の合成データ複製の結果は、元の結果と一貫して一致している。
- 参考スコア(独自算出の注目度): 0.6268282038459305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative artificial intelligence for synthetic data generation holds substantial potential to address practical challenges in epidemiology. However, many current methods suffer from limited quality, high computational demands, and complexity for non-experts. Furthermore, common evaluation strategies for synthetic data often fail to directly reflect statistical utility. Against this background, a critical underexplored question is whether synthetic data can reliably reproduce key findings from epidemiological research. We propose the use of adversarial random forests (ARF) as an efficient and convenient method for synthesizing tabular epidemiological data. To evaluate its performance, we replicated statistical analyses from six epidemiological publications and compared original with synthetic results. These publications cover blood pressure, anthropometry, myocardial infarction, accelerometry, loneliness, and diabetes, based on data from the German National Cohort (NAKO Gesundheitsstudie), the Bremen STEMI Registry U45 Study, and the Guelph Family Health Study. Additionally, we assessed the impact of dimensionality and variable complexity on synthesis quality by limiting datasets to variables relevant for individual analyses, including necessary derivations. Across all replicated original studies, results from multiple synthetic data replications consistently aligned with original findings. Even for datasets with relatively low sample size-to-dimensionality ratios, the replication outcomes closely matched the original results across various descriptive and inferential analyses. Reducing dimensionality and pre-deriving variables further enhanced both quality and stability of the results.
- Abstract(参考訳): 合成データ生成のための生成人工知能は、疫学の実践的な課題に対処する大きな可能性を秘めている。
しかし、現在の多くの手法は、制限された品質、高い計算要求、非専門家の複雑さに悩まされている。
さらに、合成データの一般的な評価戦略は、しばしば統計的効用を直接反映しない。
このような背景から、合成データが疫学研究から重要な発見を確実に再現できるかどうかが重要視されている。
本稿では,表層疫学的データを合成するための効率的かつ簡便な方法として,対向ランダム林(ARF)を提案する。
その性能を評価するため,6つの疫学論文から統計学的解析を再現し,オリジナルと合成結果を比較した。
これらの出版物は、ドイツ国立コーホート(NAKO Gesundheitsstudie)、ブレーメン STEMI Registry U45 Study、ゲルフ家族健康研究(英語版)のデータに基づいて、血圧、人文計測、心筋梗塞、加速度計、孤独感、糖尿病をカバーしている。
さらに,個々の分析に関係のある変数にデータセットを限定することにより,次元性や変数の複雑さが合成品質に与える影響を評価する。
すべての複製された元の研究、複数の合成データ複製の結果は、元の発見と一貫して一致している。
サンプルサイズ-次元比が比較的低いデータセットであっても、複製結果は様々な記述的および推論的分析で元の結果とよく一致した。
次元と派生変数の減少により、結果の品質と安定性がさらに向上した。
関連論文リスト
- Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。
現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。
本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文 参考訳(メタデータ) (2025-10-21T16:16:00Z) - Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - Beyond Memorization: Reasoning-Driven Synthesis as a Mitigation Strategy Against Benchmark Contamination [77.69093448529455]
本稿では,arXiv論文から直接研究レベルのQAを合成するために,無限にスケーラブルなフレームワークを用いて実証的研究を行う。
各種サイズ,開発者,リリース日といったモデルについて,知識カットオフ日に近い性能劣化の欠如を評価した。
合成パイプラインで要求される多段階の推論は、浅い記憶よりも深い複雑さをもたらしたと仮定する。
論文 参考訳(メタデータ) (2025-08-26T16:41:37Z) - Using Imperfect Synthetic Data in Downstream Inference Tasks [50.40949503799331]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を改善することができる。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Graph-Convolutional-Beta-VAE for Synthetic Abdominal Aorta Aneurysm Generation [4.363232795241618]
本研究は, 人工腹部大動脈瘤(AAA)生成のためのβ可変オートエンコーダグラフ畳み込みニューラルネットワークフレームワークを提案する。
提案手法は, 解剖学的特徴を抽出し, コンパクトな非絡み合い空間内での複雑な統計的関係を捉える。
合成AAAデータセットは患者のプライバシを保護し、医療研究、デバイステスト、計算モデリングのためのスケーラブルな基盤を提供する。
論文 参考訳(メタデータ) (2025-06-16T15:55:56Z) - A Statistical Approach for Synthetic EEG Data Generation [2.5648452174203062]
本研究では,相関解析とランダムサンプリングを組み合わせて,リアルな合成脳波データを生成する手法を提案する。
生の脳波と生の脳波を区別するために訓練されたランダムフォレストモデルは、偶然に高い忠実度を示す。
この方法は、脳波データセットを拡張するためのスケーラブルでプライバシー保護のアプローチを提供し、メンタルヘルス研究におけるより効率的なモデルトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-04-22T06:48:42Z) - An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval [51.10419281315848]
我々は,テキストベース人検索(TBPR)研究における合成データの可能性を探るため,実証的研究を行った。
本稿では,自動プロンプト構築戦略を導入するクラス間画像生成パイプラインを提案する。
我々は、画像のさらなる編集に生成AIモデルを応用した、クラス内画像拡張パイプラインを開発する。
論文 参考訳(メタデータ) (2025-03-28T06:18:15Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。