論文の概要: Methods for generating and evaluating synthetic longitudinal patient data: a systematic review
- arxiv url: http://arxiv.org/abs/2309.12380v3
- Date: Mon, 02 Dec 2024 12:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:23:12.324489
- Title: Methods for generating and evaluating synthetic longitudinal patient data: a systematic review
- Title(参考訳): 合成長手患者データの生成と評価方法 : 体系的レビュー
- Authors: Katariina Perkonoja, Kari Auranen, Joni Virta,
- Abstract要約: データ可用性の急激な成長は、研究と開発を促進するが、法律とプライバシーの制約により、すべての産業が平等に利益を得ているわけではない。
医療セクターは、データセキュリティと機密性に関する懸念から、患者データの利用において重大な課題に直面している。
これを解決するために、合成データ生成を含む様々なプライバシ保護手法が提案されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rapid growth in data availability has facilitated research and development, yet not all industries have benefited equally due to legal and privacy constraints. The healthcare sector faces significant challenges in utilizing patient data because of concerns about data security and confidentiality. To address this, various privacy-preserving methods, including synthetic data generation, have been proposed. Synthetic data replicate existing data as closely as possible, acting as a proxy for sensitive information. While patient data are often longitudinal, this aspect remains underrepresented in existing reviews of synthetic data generation in healthcare. This paper maps and describes methods for generating and evaluating synthetic longitudinal patient data in real-life settings through a systematic literature review, conducted following the PRISMA guidelines and incorporating data from five databases up to May 2024. Thirty-nine methods were identified, with four addressing all challenges of longitudinal data generation, though none included privacy-preserving mechanisms. Resemblance was evaluated in most studies, utility in the majority, and privacy in just over half. Only a small fraction of studies assessed all three aspects. Our findings highlight the need for further research in this area.
- Abstract(参考訳): データ可用性の急激な成長は、研究と開発を促進するが、法律とプライバシーの制約により、すべての産業が平等に利益を得ているわけではない。
医療セクターは、データセキュリティと機密性に関する懸念から、患者データの利用において重大な課題に直面している。
これを解決するために、合成データ生成を含む様々なプライバシ保護手法が提案されている。
合成データは可能な限り既存のデータを複製し、機密情報のプロキシとして機能する。
患者データは、しばしば縦断的であるが、医療における合成データ生成の既存のレビューでは、この側面が示されていない。
本稿では,PRISMAガイドラインに従って実施され,2024年5月までに5つのデータベースからデータを取り込んだ,実生活における患者データの生成と評価方法について,系統的な文献レビューを通じて述べる。
縦長データ生成のすべての課題に対処する3つの方法が同定された。
再会は、ほとんどの研究、ユーティリティー、プライバシーで半分以上評価された。
3つの側面すべてを評価するのはごく少数の研究だけだった。
我々の発見は、この分野におけるさらなる研究の必要性を浮き彫りにしている。
関連論文リスト
- Empirical Privacy Evaluations of Generative and Predictive Machine Learning Models -- A review and challenges for practice [0.3069335774032178]
生成技術を展開する前に、生成した合成データに関連するプライバシーリスクを実証的に評価することが重要である。
本稿では,機械学習に基づく生成および予測モデルにおける経験的プライバシ評価の基礎となる概念と前提について概説する。
論文 参考訳(メタデータ) (2024-11-19T12:19:28Z) - Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。
データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。
プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文 参考訳(メタデータ) (2024-11-04T06:32:48Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Towards Biologically Plausible and Private Gene Expression Data
Generation [47.72947816788821]
差分プライバシー(DP)で訓練された生成モデルは、下流アプリケーションのための合成データの作成において、ますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本研究では,DP生成モデルが自然応用シナリオにおいてどのように機能するかを系統的に分析し,実世界の遺伝子発現データに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-07T14:39:11Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文 参考訳(メタデータ) (2023-07-05T08:29:31Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - A Multifaceted Benchmarking of Synthetic Electronic Health Record
Generation Models [15.165156674288623]
人工健康データの重要な特徴を評価するために,一般化可能なベンチマークフレームワークを導入する。
その結果, 合成EHRデータの共有にはユーティリティ・プライバシ・トレードオフが存在することがわかった。
論文 参考訳(メタデータ) (2022-08-02T03:44:45Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。