論文の概要: Synthetic Data as Validation
- arxiv url: http://arxiv.org/abs/2310.16052v1
- Date: Tue, 24 Oct 2023 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:20:56.877712
- Title: Synthetic Data as Validation
- Title(参考訳): 検証としての合成データ
- Authors: Qixin Hu, Alan Yuille, Zongwei Zhou
- Abstract要約: CT(Computed tomography)ボリュームにおける早期癌検出のための合成データの有用性について述べる。
我々は,人工腫瘍を用いた外部データのストリーム上で,AIモデルを継続的にトレーニングする,新たな連続学習フレームワークを構築した。
動的に拡張された合成データをトレーニングし、検証するAIモデルは、実世界のデータにのみトレーニングされ、検証されるモデルより一貫して優れている。
- 参考スコア(独自算出の注目度): 9.506660694536649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study leverages synthetic data as a validation set to reduce overfitting
and ease the selection of the best model in AI development. While synthetic
data have been used for augmenting the training set, we find that synthetic
data can also significantly diversify the validation set, offering marked
advantages in domains like healthcare, where data are typically limited,
sensitive, and from out-domain sources (i.e., hospitals). In this study, we
illustrate the effectiveness of synthetic data for early cancer detection in
computed tomography (CT) volumes, where synthetic tumors are generated and
superimposed onto healthy organs, thereby creating an extensive dataset for
rigorous validation. Using synthetic data as validation can improve AI
robustness in both in-domain and out-domain test sets. Furthermore, we
establish a new continual learning framework that continuously trains AI models
on a stream of out-domain data with synthetic tumors. The AI model trained and
validated in dynamically expanding synthetic data can consistently outperform
models trained and validated exclusively on real-world data. Specifically, the
DSC score for liver tumor segmentation improves from 26.7% (95% CI:
22.6%-30.9%) to 34.5% (30.8%-38.2%) when evaluated on an in-domain dataset and
from 31.1% (26.0%-36.2%) to 35.4% (32.1%-38.7%) on an out-domain dataset.
Importantly, the performance gain is particularly significant in identifying
very tiny liver tumors (radius < 5mm) in CT volumes, with Sensitivity improving
from 33.1% to 55.4% on an in-domain dataset and 33.9% to 52.3% on an out-domain
dataset, justifying the efficacy in early detection of cancer. The application
of synthetic data, from both training and validation perspectives, underlines a
promising avenue to enhance AI robustness when dealing with data from varying
domains.
- Abstract(参考訳): 本研究は,AI開発において最適なモデルの選択を容易化するために,合成データを検証セットとして活用する。
合成データはトレーニングセットの強化に使用されているが、合成データはバリデーションセットを著しく多様化させる可能性があり、医療などの領域ではデータが制限され、敏感であり、外部のソース(病院など)から得られる顕著な利点がある。
そこで本研究では,ct(ct)ボリュームにおける癌早期検出のための合成データの有効性について述べる。そこでは,合成腫瘍が生成され,健康な臓器に重畳され,厳密な検証のための広範なデータセットが作成される。
合成データをバリデーションとして使用すると、ドメイン内とドメイン外の両方のテストセットにおけるAI堅牢性が改善される。
さらに,合成腫瘍を含む領域外データのストリーム上でaiモデルを継続的にトレーニングする,新しい連続学習フレームワークを構築した。
動的に拡張された合成データをトレーニングし、検証するAIモデルは、実世界のデータにのみトレーニングされ、検証されるモデルより一貫して優れている。
具体的には、肝臓腫瘍セグメンテーションのDSCスコアは、内部データセットで評価すると26.7% (95% CI: 22.6%-30.9%) から34.5% (30.8%-38.2%) に改善され、31.1% (26.0%-36.2%) から35.4% (32.1%-38.7%) に改善されている。
重要な点は、ctボリュームで非常に小さな肝腫瘍(radius < 5mm)を同定することであり、感度はドメイン内データセットでは33.1%から55.4%に向上し、ドメイン外データセットでは33.9%から52.3%に向上し、癌の早期発見の有効性を正当化している。
トレーニングと検証の両方の観点から、合成データの応用は、さまざまなドメインのデータを扱う際のAIロバスト性を高めるための、有望な方法である。
関連論文リスト
- NLICE: Synthetic Medical Record Generation for Effective Primary
Healthcare Differential Diagnosis [0.765458997723296]
患者記録の作成には,SymCatという公衆疾患症状データソースを用いている。
合成データの表現性を高めるために,NLICEと呼ばれる医学標準化された症状モデリング手法を用いる。
予測疾患モデルをトレーニングするためのデータセットの有効性を示す。
論文 参考訳(メタデータ) (2024-01-24T19:17:45Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [52.5766244206855]
本稿では,セマンティックセグメンテーションにおける信頼性を評価するために,データの自動合成を行う最先端生成モデルに挑戦する。
安定拡散を微調整することにより、OODドメインやOODオブジェクトに塗布された合成データのゼロショット生成を行う。
我々は,合成データの性能と実OODデータの性能との間に高い相関関係を示し,妥当性を示す。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical
Imaging Research [4.609218256099332]
本研究では, 拡散モデルを用いた合成データ補完が, CXR解析のための深層学習(DL)分類器の性能に及ぼす影響について検討した。
私たちはCheXpert、MIMIC-CXR、Emory Chest X-rayの3つのデータセットを使用しました。
我々のアプローチは、合成画像が元のデータの人口統計学的特徴と病理学的特徴を反映することを確実にした。
論文 参考訳(メタデータ) (2023-11-15T21:58:01Z) - TarGEN: Targeted Data Generation with Large Language Models [54.1093098278564]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - Generative models improve fairness of medical classifiers under
distribution shifts [49.10233060774818]
データから現実的な拡張を自動的に学習することは、生成モデルを用いてラベル効率の良い方法で可能であることを示す。
これらの学習の強化は、モデルをより堅牢で統計的に公平に配布できることを示した。
論文 参考訳(メタデータ) (2023-04-18T18:15:38Z) - Improving the Level of Autism Discrimination through GraphRNN Link
Prediction [8.103074928419527]
本稿では,GraphRNNを用いて実脳ネットワークのエッジ分布を学習する後者の手法に基づく。
実験の結果,オリジナルデータと合成データの組み合わせはニューラルネットワークの識別を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2022-02-19T06:50:32Z) - Fader Networks for domain adaptation on fMRI: ABIDE-II study [68.5481471934606]
我々は3次元畳み込みオートエンコーダを用いて、無関係な空間画像表現を実現するとともに、ABIDEデータ上で既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-14T16:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。