Fugu-MT 論文翻訳(概要): Synthetic Data as Validation

論文の概要: Synthetic Data as Validation

arxiv url: http://arxiv.org/abs/2310.16052v1
Date: Tue, 24 Oct 2023 17:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 17:20:56.877712
Title: Synthetic Data as Validation
Title（参考訳）: 検証としての合成データ
Authors: Qixin Hu, Alan Yuille, Zongwei Zhou
Abstract要約: CT(Computed tomography)ボリュームにおける早期癌検出のための合成データの有用性について述べる。我々は,人工腫瘍を用いた外部データのストリーム上で,AIモデルを継続的にトレーニングする,新たな連続学習フレームワークを構築した。動的に拡張された合成データをトレーニングし、検証するAIモデルは、実世界のデータにのみトレーニングされ、検証されるモデルより一貫して優れている。
参考スコア（独自算出の注目度）: 9.506660694536649
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study leverages synthetic data as a validation set to reduce overfitting and ease the selection of the best model in AI development. While synthetic data have been used for augmenting the training set, we find that synthetic data can also significantly diversify the validation set, offering marked advantages in domains like healthcare, where data are typically limited, sensitive, and from out-domain sources (i.e., hospitals). In this study, we illustrate the effectiveness of synthetic data for early cancer detection in computed tomography (CT) volumes, where synthetic tumors are generated and superimposed onto healthy organs, thereby creating an extensive dataset for rigorous validation. Using synthetic data as validation can improve AI robustness in both in-domain and out-domain test sets. Furthermore, we establish a new continual learning framework that continuously trains AI models on a stream of out-domain data with synthetic tumors. The AI model trained and validated in dynamically expanding synthetic data can consistently outperform models trained and validated exclusively on real-world data. Specifically, the DSC score for liver tumor segmentation improves from 26.7% (95% CI: 22.6%-30.9%) to 34.5% (30.8%-38.2%) when evaluated on an in-domain dataset and from 31.1% (26.0%-36.2%) to 35.4% (32.1%-38.7%) on an out-domain dataset. Importantly, the performance gain is particularly significant in identifying very tiny liver tumors (radius < 5mm) in CT volumes, with Sensitivity improving from 33.1% to 55.4% on an in-domain dataset and 33.9% to 52.3% on an out-domain dataset, justifying the efficacy in early detection of cancer. The application of synthetic data, from both training and validation perspectives, underlines a promising avenue to enhance AI robustness when dealing with data from varying domains.
Abstract（参考訳）: 本研究は,AI開発において最適なモデルの選択を容易化するために,合成データを検証セットとして活用する。合成データはトレーニングセットの強化に使用されているが、合成データはバリデーションセットを著しく多様化させる可能性があり、医療などの領域ではデータが制限され、敏感であり、外部のソース(病院など)から得られる顕著な利点がある。そこで本研究では,ct(ct)ボリュームにおける癌早期検出のための合成データの有効性について述べる。そこでは,合成腫瘍が生成され,健康な臓器に重畳され,厳密な検証のための広範なデータセットが作成される。合成データをバリデーションとして使用すると、ドメイン内とドメイン外の両方のテストセットにおけるAI堅牢性が改善される。さらに,合成腫瘍を含む領域外データのストリーム上でaiモデルを継続的にトレーニングする,新しい連続学習フレームワークを構築した。動的に拡張された合成データをトレーニングし、検証するAIモデルは、実世界のデータにのみトレーニングされ、検証されるモデルより一貫して優れている。具体的には、肝臓腫瘍セグメンテーションのDSCスコアは、内部データセットで評価すると26.7% (95% CI: 22.6%-30.9%) から34.5% (30.8%-38.2%) に改善され、31.1% (26.0%-36.2%) から35.4% (32.1%-38.7%) に改善されている。重要な点は、ctボリュームで非常に小さな肝腫瘍(radius < 5mm)を同定することであり、感度はドメイン内データセットでは33.1%から55.4%に向上し、ドメイン外データセットでは33.9%から52.3%に向上し、癌の早期発見の有効性を正当化している。トレーニングと検証の両方の観点から、合成データの応用は、さまざまなドメインのデータを扱う際のAIロバスト性を高めるための、有望な方法である。

関連論文リスト

Data-Constrained Synthesis of Training Data for De-Identification [0.0]
臨床領域に適応する大言語モデル(LLM)について検討した。我々は,個人識別可能な情報にタグを付加した人工的な臨床テキストを生成する。合成コーパスは合成NERモデルの訓練に使用される。
論文参考訳（メタデータ） (2025-02-20T16:09:27Z)
Synthetic Poisoning Attacks: The Impact of Poisoned MRI Image on U-Net Brain Tumor Segmentation [8.955776982854985]
脳腫瘍分離のためのU-Netモデルのロバスト性およびセグメンテーション精度に及ぼす合成MRIデータの影響について検討した。合成データ汚染の影響を定量化するために、U-Netモデルを段階的に"汚染された"データセットに訓練する。
論文参考訳（メタデータ） (2025-02-06T07:21:19Z)
Merging synthetic and real embryo data for advanced AI predictions [69.07284335967019]
我々は、作成した2つのデータセットを用いて、2つの生成モデルをトレーニングし、既存の1つのデータセットを使用して、様々な細胞レベルで合成胚画像を生成する。これらは実画像と組み合わせて、胚細胞ステージ予測のための分類モデルを訓練した。その結果,実データと合成画像を組み合わせることで分類性能が向上し,実データのみをトレーニングした場合の94.5%に比べて97%の精度が得られた。
論文参考訳（メタデータ） (2024-12-02T08:24:49Z)
Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-27T19:13:15Z)
Exploring the Impact of Synthetic Data for Aerial-view Human Detection [17.41001388151408]
航空ビューによる人間の検出は、より多様な人間の外観を捉えるために、大規模なデータに対する大きな需要がある。合成データはデータを拡張するのに十分なリソースだが、実際のデータとのドメインギャップは、トレーニングで使用する上で最大の障害である。
論文参考訳（メタデータ） (2024-05-24T04:19:48Z)
Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks [0.7071166713283337]
私たちは機械学習モデルをトレーニングするのに十分な規模のデータセットを作成しました。私たちのゴールは自閉症の基準に対応する行動のラベル付けです。データの増大はリコールを13%増加させたが、精度は16%低下した。
論文参考訳（メタデータ） (2024-05-08T03:18:12Z)
On the Equivalency, Substitutability, and Flexibility of Synthetic Data [9.459709213597707]
本研究では,合成データと実世界のデータとの等価性,実データに対する合成データの置換可能性,合成データ生成装置の柔軟性について検討する。以上の結果から, 合成データによりモデル性能が向上するだけでなく, 実データへの置換性も向上し, 性能損失の60%から80%が置換可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-24T17:21:32Z)
Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。 SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文参考訳（メタデータ） (2024-03-20T17:59:43Z)
Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical Imaging Research [4.475998415951477]
Generative AIは、合成画像を生成するための有望なアプローチを提供し、データセットの多様性を向上する。本研究では, 医用画像研究の性能と一般化性に及ぼす合成データ補充の影響について検討した。
論文参考訳（メタデータ） (2023-11-15T21:58:01Z)
TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文参考訳（メタデータ） (2023-10-27T03:32:17Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文参考訳（メタデータ） (2023-09-13T10:40:41Z)
Bridging the Gap: Enhancing the Utility of Synthetic Data via Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。 Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文参考訳（メタデータ） (2023-05-17T10:50:38Z)
Generative models improve fairness of medical classifiers under distribution shifts [49.10233060774818]
データから現実的な拡張を自動的に学習することは、生成モデルを用いてラベル効率の良い方法で可能であることを示す。これらの学習の強化は、モデルをより堅牢で統計的に公平に配布できることを示した。
論文参考訳（メタデータ） (2023-04-18T18:15:38Z)
Fader Networks for domain adaptation on fMRI: ABIDE-II study [68.5481471934606]
我々は3次元畳み込みオートエンコーダを用いて、無関係な空間画像表現を実現するとともに、ABIDEデータ上で既存のアプローチより優れていることを示す。
論文参考訳（メタデータ） (2020-10-14T16:50:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。