論文の概要: Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results
- arxiv url: http://arxiv.org/abs/2305.07685v1
- Date: Fri, 12 May 2023 13:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 20:15:23.083058
- Title: Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results
- Title(参考訳): 長手コホート研究のための合成データ生成 -- 公表されたデータ解析結果の評価、方法拡張および再現
- Authors: Lisa K\"uhnel, Julian Schneider, Ines Perrar, Tim Adams, Fabian
Prasser, Ute N\"othlings, Holger Fr\"ohlich, Juliane Fluck
- Abstract要約: 医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
- 参考スコア(独自算出の注目度): 0.32593385688760446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Access to individual-level health data is essential for gaining new insights
and advancing science. In particular, modern methods based on artificial
intelligence rely on the availability of and access to large datasets. In the
health sector, access to individual-level data is often challenging due to
privacy concerns. A promising alternative is the generation of fully synthetic
data, i.e. data generated through a randomised process that have similar
statistical properties as the original data, but do not have a one-to-one
correspondence with the original individual-level records. In this study, we
use a state-of-the-art synthetic data generation method and perform in-depth
quality analyses of the generated data for a specific use case in the field of
nutrition. We demonstrate the need for careful analyses of synthetic data that
go beyond descriptive statistics and provide valuable insights into how to
realise the full potential of synthetic datasets. By extending the methods, but
also by thoroughly analysing the effects of sampling from a trained model, we
are able to largely reproduce significant real-world analysis results in the
chosen use case.
- Abstract(参考訳): 個人の健康データへのアクセスは、新しい洞察を得ることと科学を進歩させるのに不可欠である。
特に、人工知能に基づく現代の手法は、大規模なデータセットの可用性とアクセスに依存している。
医療分野では、プライバシーの懸念から個人レベルのデータへのアクセスが難しいことが多い。
有望な代替手段は、完全な合成データ、すなわち、元のデータと同様の統計特性を持つが、元の個人レベルのレコードと1対1の対応を持たないランダム化されたプロセスによって生成されるデータの生成である。
本研究では,最先端の合成データ生成法を用いて,栄養分野の特定の用途に対して,生成データの詳細な品質分析を行う。
記述的統計以上の合成データの注意深く分析することの必要性を実証し、合成データセットの潜在可能性を完全に実現するための貴重な洞察を提供する。
学習したモデルからのサンプリングの効果を徹底的に分析することで、選択したユースケースにおいて、重要な実世界の分析結果を大々的に再現することができる。
関連論文リスト
- A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthetic Data in Human Analysis: A Survey [16.562921709882865]
調査は、人間分析の分野の研究者や実践者を対象としている。
我々は,現在最先端の手法と合成データの利用の主な利点を要約した調査を行う。
また、利用可能な合成データセットと生成モデルの概要も提供する。
論文 参考訳(メタデータ) (2022-08-19T07:32:34Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。