論文の概要: Synthetic Data in Healthcare
- arxiv url: http://arxiv.org/abs/2304.03243v1
- Date: Thu, 6 Apr 2023 17:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 13:15:09.082881
- Title: Synthetic Data in Healthcare
- Title(参考訳): 医療における合成データ
- Authors: Daniel McDuff, Theodore Curran, Achuta Kadambi
- Abstract要約: 本稿では,データ作成のための物理・統計シミュレーションの事例と医療・医療への応用について述べる。
人工物は、プライバシ、エクイティ、安全性、継続的な、因果学習を促進することができるが、欠陥や盲点を導入し、バイアスを伝播または誇張するリスクも負う。
- 参考スコア(独自算出の注目度): 10.555189948915492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data are becoming a critical tool for building artificially
intelligent systems. Simulators provide a way of generating data systematically
and at scale. These data can then be used either exclusively, or in conjunction
with real data, for training and testing systems. Synthetic data are
particularly attractive in cases where the availability of ``real'' training
examples might be a bottleneck. While the volume of data in healthcare is
growing exponentially, creating datasets for novel tasks and/or that reflect a
diverse set of conditions and causal relationships is not trivial. Furthermore,
these data are highly sensitive and often patient specific. Recent research has
begun to illustrate the potential for synthetic data in many areas of medicine,
but no systematic review of the literature exists. In this paper, we present
the cases for physical and statistical simulations for creating data and the
proposed applications in healthcare and medicine. We discuss that while
synthetics can promote privacy, equity, safety and continual and causal
learning, they also run the risk of introducing flaws, blind spots and
propagating or exaggerating biases.
- Abstract(参考訳): 合成データは、人工知能システムを構築するための重要なツールになりつつある。
シミュレーターは、システマティックかつ大規模にデータを生成する方法を提供する。
これらのデータは、トレーニングとテストシステムのために、あるいは実際のデータと組み合わせて使用することができる。
合成データは、 ``real'' トレーニング例が利用可能である場合、特に魅力的である。
医療のデータ量は指数関数的に増えているが、新しいタスクや、さまざまな条件や因果関係を反映したデータセットを作成することは簡単ではない。
さらに、これらのデータは非常に敏感で、しばしば患者固有のものです。
近年、医学分野における合成データの可能性について研究が始まっているが、体系的な文献のレビューは存在しない。
本稿では,データ作成のための物理・統計シミュレーションの事例と,医療・医療への応用について述べる。
我々は、合成がプライバシ、公平性、安全性、継続的な因果学習を促進する一方で、欠陥や盲点の導入、バイアスの伝播や誇張のリスクも考慮している。
関連論文リスト
- Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthetic Data: Methods, Use Cases, and Risks [11.413309528464632]
研究コミュニティと業界の両方で勢いを増す可能性のある選択肢は、代わりに合成データを共有することだ。
我々は、合成データについて穏やかに紹介し、そのユースケース、未適応のプライバシー問題、そしてその固有の制限を効果的なプライバシー強化技術として論じます。
論文 参考訳(メタデータ) (2023-03-01T16:35:33Z) - Investigating Bias with a Synthetic Data Generator: Empirical Evidence
and Philosophical Interpretation [66.64736150040093]
機械学習の応用は、私たちの社会でますます広まりつつある。
リスクは、データに埋め込まれたバイアスを体系的に広めることである。
本稿では,特定の種類のバイアスとその組み合わせで合成データを生成するフレームワークを導入することにより,バイアスを分析することを提案する。
論文 参考訳(メタデータ) (2022-09-13T11:18:50Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - FakeNews: GAN-based generation of realistic 3D volumetric data -- A
systematic review and taxonomy [2.801317303396674]
GAN(Generative Adversarial Networks)は、現実的な合成データを生成するために使用される。
本稿では,GANを用いたリアルなボリューム合成データを生成する作業の概要について述べる。
論文 参考訳(メタデータ) (2022-07-04T13:14:37Z) - The Health Gym: Synthetic Health-Related Datasets for the Development of
Reinforcement Learning Algorithms [2.032684842401705]
Health Gymは、機械学習アルゴリズムのプロトタイプ、評価、比較に自由にアクセス可能な、合成医療データセットのコレクションである。
このデータセットはGAN(Generative Adversarial Network)を用いて作成された。
合成データセットの公開分布に関連する機密情報開示のリスクは非常に低いと推定される。
論文 参考訳(メタデータ) (2022-03-12T07:28:02Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。