論文の概要: Synthetic Data as Validation
- arxiv url: http://arxiv.org/abs/2310.16052v1
- Date: Tue, 24 Oct 2023 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:20:56.877712
- Title: Synthetic Data as Validation
- Title(参考訳): 検証としての合成データ
- Authors: Qixin Hu, Alan Yuille, Zongwei Zhou
- Abstract要約: CT(Computed tomography)ボリュームにおける早期癌検出のための合成データの有用性について述べる。
我々は,人工腫瘍を用いた外部データのストリーム上で,AIモデルを継続的にトレーニングする,新たな連続学習フレームワークを構築した。
動的に拡張された合成データをトレーニングし、検証するAIモデルは、実世界のデータにのみトレーニングされ、検証されるモデルより一貫して優れている。
- 参考スコア(独自算出の注目度): 9.506660694536649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study leverages synthetic data as a validation set to reduce overfitting
and ease the selection of the best model in AI development. While synthetic
data have been used for augmenting the training set, we find that synthetic
data can also significantly diversify the validation set, offering marked
advantages in domains like healthcare, where data are typically limited,
sensitive, and from out-domain sources (i.e., hospitals). In this study, we
illustrate the effectiveness of synthetic data for early cancer detection in
computed tomography (CT) volumes, where synthetic tumors are generated and
superimposed onto healthy organs, thereby creating an extensive dataset for
rigorous validation. Using synthetic data as validation can improve AI
robustness in both in-domain and out-domain test sets. Furthermore, we
establish a new continual learning framework that continuously trains AI models
on a stream of out-domain data with synthetic tumors. The AI model trained and
validated in dynamically expanding synthetic data can consistently outperform
models trained and validated exclusively on real-world data. Specifically, the
DSC score for liver tumor segmentation improves from 26.7% (95% CI:
22.6%-30.9%) to 34.5% (30.8%-38.2%) when evaluated on an in-domain dataset and
from 31.1% (26.0%-36.2%) to 35.4% (32.1%-38.7%) on an out-domain dataset.
Importantly, the performance gain is particularly significant in identifying
very tiny liver tumors (radius < 5mm) in CT volumes, with Sensitivity improving
from 33.1% to 55.4% on an in-domain dataset and 33.9% to 52.3% on an out-domain
dataset, justifying the efficacy in early detection of cancer. The application
of synthetic data, from both training and validation perspectives, underlines a
promising avenue to enhance AI robustness when dealing with data from varying
domains.
- Abstract(参考訳): 本研究は,AI開発において最適なモデルの選択を容易化するために,合成データを検証セットとして活用する。
合成データはトレーニングセットの強化に使用されているが、合成データはバリデーションセットを著しく多様化させる可能性があり、医療などの領域ではデータが制限され、敏感であり、外部のソース(病院など)から得られる顕著な利点がある。
そこで本研究では,ct(ct)ボリュームにおける癌早期検出のための合成データの有効性について述べる。そこでは,合成腫瘍が生成され,健康な臓器に重畳され,厳密な検証のための広範なデータセットが作成される。
合成データをバリデーションとして使用すると、ドメイン内とドメイン外の両方のテストセットにおけるAI堅牢性が改善される。
さらに,合成腫瘍を含む領域外データのストリーム上でaiモデルを継続的にトレーニングする,新しい連続学習フレームワークを構築した。
動的に拡張された合成データをトレーニングし、検証するAIモデルは、実世界のデータにのみトレーニングされ、検証されるモデルより一貫して優れている。
具体的には、肝臓腫瘍セグメンテーションのDSCスコアは、内部データセットで評価すると26.7% (95% CI: 22.6%-30.9%) から34.5% (30.8%-38.2%) に改善され、31.1% (26.0%-36.2%) から35.4% (32.1%-38.7%) に改善されている。
重要な点は、ctボリュームで非常に小さな肝腫瘍(radius < 5mm)を同定することであり、感度はドメイン内データセットでは33.1%から55.4%に向上し、ドメイン外データセットでは33.9%から52.3%に向上し、癌の早期発見の有効性を正当化している。
トレーニングと検証の両方の観点から、合成データの応用は、さまざまなドメインのデータを扱う際のAIロバスト性を高めるための、有望な方法である。
関連論文リスト
- Data-Constrained Synthesis of Training Data for De-Identification [0.0]
臨床領域に適応する大言語モデル(LLM)について検討した。
我々は,個人識別可能な情報にタグを付加した人工的な臨床テキストを生成する。
合成コーパスは合成NERモデルの訓練に使用される。
論文 参考訳(メタデータ) (2025-02-20T16:09:27Z) - Synthetic Poisoning Attacks: The Impact of Poisoned MRI Image on U-Net Brain Tumor Segmentation [8.955776982854985]
脳腫瘍分離のためのU-Netモデルのロバスト性およびセグメンテーション精度に及ぼす合成MRIデータの影響について検討した。
合成データ汚染の影響を定量化するために、U-Netモデルを段階的に"汚染された"データセットに訓練する。
論文 参考訳(メタデータ) (2025-02-06T07:21:19Z) - Embryo 2.0: Merging Synthetic and Real Data for Advanced AI Predictions [69.07284335967019]
2つのデータセットを使用して、2つの生成モデルをトレーニングします。
2-cell, 4-cell, 8-cell, morula, blastocyst など, 様々な細胞で合成胚画像を生成する。
これらは実画像と組み合わせて、胚細胞ステージ予測のための分類モデルを訓練した。
論文 参考訳(メタデータ) (2024-12-02T08:24:49Z) - Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks [0.7071166713283337]
私たちは機械学習モデルをトレーニングするのに十分な規模のデータセットを作成しました。
私たちのゴールは自閉症の基準に対応する行動のラベル付けです。
データの増大はリコールを13%増加させたが、精度は16%低下した。
論文 参考訳(メタデータ) (2024-05-08T03:18:12Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical Imaging Research [4.475998415951477]
Generative AIは、合成画像を生成するための有望なアプローチを提供し、データセットの多様性を向上する。
本研究では, 医用画像研究の性能と一般化性に及ぼす合成データ補充の影響について検討した。
論文 参考訳(メタデータ) (2023-11-15T21:58:01Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - Fader Networks for domain adaptation on fMRI: ABIDE-II study [68.5481471934606]
我々は3次元畳み込みオートエンコーダを用いて、無関係な空間画像表現を実現するとともに、ABIDEデータ上で既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-14T16:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。