論文の概要: Automatic Extraction of Rules for Generating Synthetic Patient Data From Real-World Population Data Using Glioblastoma as an Example
- arxiv url: http://arxiv.org/abs/2512.14721v2
- Date: Thu, 18 Dec 2025 09:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 14:03:03.253905
- Title: Automatic Extraction of Rules for Generating Synthetic Patient Data From Real-World Population Data Using Glioblastoma as an Example
- Title(参考訳): グリオブラストマを用いた実世界人口データから合成患者データを生成するためのルールの自動抽出
- Authors: Arno Appenzeller, Nick Terzer, André Homeyer, Jan-Philipp Redlich, Sabine Luttmann, Friedrich Feuerhake, Nadine S. Schaadt, Timm Intemann, Sarah Teuber-Hanselmann, Stefan Nikolin, Joachim Weis, Klaus Kraywinkel, Pascal Birnstill,
- Abstract要約: 合成データの生成は、医療データをプライバシに適合した形で二次的に利用するための有望な技術である。
現実的な患者データを作成する一般的な方法は、ルールベースのSyntheaデータジェネレータである。
- 参考スコア(独自算出の注目度): 0.03226662513378314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generation of synthetic data is a promising technology to make medical data available for secondary use in a privacy-compliant manner. A popular method for creating realistic patient data is the rule-based Synthea data generator. Synthea generates data based on rules describing the lifetime of a synthetic patient. These rules typically express the probability of a condition occurring, such as a disease, depending on factors like age. Since they only contain statistical information, rules usually have no specific data protection requirements. However, creating meaningful rules can be a very complex process that requires expert knowledge and realistic sample data. In this paper, we introduce and evaluate an approach to automatically generate Synthea rules based on statistics from tabular data, which we extracted from cancer reports. As an example use case, we created a Synthea module for glioblastoma from a real-world dataset and used it to generate a synthetic dataset. Compared to the original dataset, the synthetic data reproduced known disease courses and mostly retained the statistical properties. Overall, synthetic patient data holds great potential for privacy-preserving research. The data can be used to formulate hypotheses and to develop prototypes, but medical interpretation should consider the specific limitations as with any currently available approach.
- Abstract(参考訳): 合成データの生成は、医療データをプライバシに適合した形で二次的に利用するための有望な技術である。
現実的な患者データを作成する一般的な方法は、ルールベースのSyntheaデータジェネレータである。
Syntheaは、合成患者の寿命を記述する規則に基づいてデータを生成する。
これらの規則は典型的には、年齢などの要因によって、病気のような状態が発生する確率を表す。
統計情報のみを含むため、規則は通常、特定のデータ保護要件を持たない。
しかし、意味のあるルールを作成することは、専門家の知識と現実的なサンプルデータを必要とする非常に複雑なプロセスです。
本稿では,がん報告から抽出した表型データから統計情報に基づいて,Syntheaルールを自動生成する手法を紹介し,評価する。
例として、現実世界のデータセットからグリオブラスト腫用のSyntheaモジュールを作成し、それを合成データセットの生成に使用しました。
元のデータセットと比較すると、合成データは既知の疾患コースを再現し、統計的特性をほとんど保持していた。
総合的に、人工的な患者データは、プライバシー保護研究の大きな可能性を秘めている。
データは仮説の定式化やプロトタイプの開発に利用することができるが、医学的解釈では、現在利用可能なアプローチと同様に、特定の制限を考慮すべきである。
関連論文リスト
- Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。
現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。
本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文 参考訳(メタデータ) (2025-10-21T16:16:00Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - A Survey on Tabular Data Generation: Utility, Alignment, Fidelity, Privacy, and Beyond [53.56796220109518]
異なるユースケースは、実際に有用な異なる要件を満たすために合成データを要求する。
合成データの実用性、合成データのドメイン固有の知識との整合性、実際のデータ分布と比較しての合成データ分布の統計的忠実度、プライバシ保護能力の4つの要件をレビューする。
今後の分野の方向性と、現在の評価方法を改善する機会について論じる。
論文 参考訳(メタデータ) (2025-03-07T21:47:11Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthetic Data in Healthcare [10.555189948915492]
本稿では,データ作成のための物理・統計シミュレーションの事例と医療・医療への応用について述べる。
人工物は、プライバシ、エクイティ、安全性、継続的な、因果学習を促進することができるが、欠陥や盲点を導入し、バイアスを伝播または誇張するリスクも負う。
論文 参考訳(メタデータ) (2023-04-06T17:23:39Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Rule-adhering synthetic data -- the lingua franca of learning [0.0]
本研究では、ドメインの専門知識をデータ合成に組み込むアプローチについて検討する。
生成した合成データジェネレータは、任意の種類の新しいサンプルに対してプローブすることができる。
我々は、公開データセットの概念を実証し、その利点を記述的分析と下流MLモデルを用いて評価する。
論文 参考訳(メタデータ) (2022-09-12T20:01:13Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z) - Fidelity and Privacy of Synthetic Medical Data [0.0]
医療記録のデジタル化は、新時代のビッグデータから臨床科学へとつながった。
個々のレベルの医療データを共有する必要性は増え続けており、これ以上緊急ではない。
ビッグデータの利用に対する熱意は、患者の自律性とプライバシに対する完全な適切な懸念によって誘惑された。
論文 参考訳(メタデータ) (2021-01-18T23:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。