Fugu-MT 論文翻訳(概要): Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical Imaging Research

論文の概要: Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical Imaging Research

arxiv url: http://arxiv.org/abs/2311.09402v2
Date: Mon, 8 Jul 2024 00:56:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 03:18:28.504715
Title: Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical Imaging Research
Title（参考訳）: シンセティック・エンハンスメント : 医用画像研究における合成データの可能性
Authors: Bardia Khosravi, Frank Li, Theo Dapamede, Pouria Rouzrokh, Cooper U. Gamble, Hari M. Trivedi, Cody C. Wyles, Andrew B. Sellergren, Saptarshi Purkayastha, Bradley J. Erickson, Judy W. Gichoya,
Abstract要約: Generative AIは、合成画像を生成するための有望なアプローチを提供し、データセットの多様性を向上する。本研究では, 医用画像研究の性能と一般化性に及ぼす合成データ補充の影響について検討した。
参考スコア（独自算出の注目度）: 4.475998415951477
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Chest X-rays (CXR) are essential for diagnosing a variety of conditions, but when used on new populations, model generalizability issues limit their efficacy. Generative AI, particularly denoising diffusion probabilistic models (DDPMs), offers a promising approach to generating synthetic images, enhancing dataset diversity. This study investigates the impact of synthetic data supplementation on the performance and generalizability of medical imaging research. The study employed DDPMs to create synthetic CXRs conditioned on demographic and pathological characteristics from the CheXpert dataset. These synthetic images were used to supplement training datasets for pathology classifiers, with the aim of improving their performance. The evaluation involved three datasets (CheXpert, MIMIC-CXR, and Emory Chest X-ray) and various experiments, including supplementing real data with synthetic data, training with purely synthetic data, and mixing synthetic data with external datasets. Performance was assessed using the area under the receiver operating curve (AUROC). Adding synthetic data to real datasets resulted in a notable increase in AUROC values (up to 0.02 in internal and external test sets with 1000% supplementation, p-value less than 0.01 in all instances). When classifiers were trained exclusively on synthetic data, they achieved performance levels comparable to those trained on real data with 200%-300% data supplementation. The combination of real and synthetic data from different sources demonstrated enhanced model generalizability, increasing model AUROC from 0.76 to 0.80 on the internal test set (p-value less than 0.01). In conclusion, synthetic data supplementation significantly improves the performance and generalizability of pathology classifiers in medical imaging.
Abstract（参考訳）: 胸部X線(CXR)は様々な疾患の診断に必須であるが、新しい個体群で使用すると、モデル一般化可能性の問題が有効性を制限する。生成AI、特に拡散確率モデル(DDPM)は、合成画像を生成するための有望なアプローチを提供し、データセットの多様性を向上する。本研究では, 医用画像研究の性能と一般化性に及ぼす合成データ補充の影響について検討した。この研究は、CheXpertデータセットから人口統計学的および病理学的特徴を条件とした合成CXRを作成するためにDDPMを用いた。これらの合成画像は、その性能を向上させることを目的として、病理分類器のトレーニングデータセットを補完するために使用された。評価には3つのデータセット(CheXpert、MIMIC-CXR、Emory Chest X-ray)と、実際のデータを合成データで補うこと、純粋な合成データでトレーニングすること、合成データを外部データセットで混合することを含む様々な実験が含まれていた。受信操作曲線 (AUROC) 下での性能評価を行った。実際のデータセットに合成データを追加すると、AUROC値が顕著に増加した(内部および外部テストセットでは最大0.02、補充は1000%、すべてのインスタンスでは0.01未満)。分類器が合成データのみで訓練されたとき、200%-300%のデータ補充で実データで訓練されたものと同等のパフォーマンスレベルを達成した。異なるソースからの実データと合成データの組み合わせにより、モデル一般化性が向上し、内部テストセットでモデルAUROCが0.76から0.80に増加した(p-値が0.01未満)。結論として, 医用画像における病理分類器の性能と一般化性は, 合成データ補充により著しく向上する。

関連論文リスト

Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文参考訳（メタデータ） (2025-10-21T16:16:00Z)
Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。合成データがモデル一般化をどのように改善するかを批判的に検討する。本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文参考訳（メタデータ） (2025-09-07T19:28:52Z)
Improving Performance, Robustness, and Fairness of Radiographic AI Models with Finely-Controllable Synthetic Data [14.791557943114737]
RoentGen-v2は胸部X線写真のためのテキスト・画像拡散モデルである。人口動態条件付き臨床的にもっともらしい画像を生成する。我々は、この大規模な合成データセットを用いて、下流疾患分類モデルのための最適なトレーニングパイプラインを評価する。
論文参考訳（メタデータ） (2025-08-22T20:30:58Z)
Assessment of Using Synthetic Data in Brain Tumor Segmentation [0.3222802562733786]
本研究では,プリトレーニングGANモデルを用いて生成した合成MRIデータをU-Netセグメンテーションネットワークに組み込むことが,概念実証として,U-Netセグメンテーションネットワークのトレーニングに与える影響について検討する。 BraTS 2020データセットの実際のデータ、メディガンライブラリで生成された合成データ、および実際のサンプルと合成サンプルを様々な割合で組み合わせたハイブリッドデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2025-08-16T05:56:38Z)
Prototype-Guided Diffusion for Digital Pathology: Achieving Foundation Model Performance with Minimal Clinical Data [6.318463500874778]
本研究では,高忠実度合成病理データを大規模に生成するプロトタイプ誘導拡散モデルを提案する。我々のアプローチは、生成したデータの生物学的、診断学的に有意義な変動を保証します。我々は、大規模な実世界のデータセットでトレーニングされたモデルよりも60倍-760倍少ないデータを使用しても、我々の合成データセットでトレーニングされた自己教師機能によって競争性能が向上することを示した。
論文参考訳（メタデータ） (2025-04-15T21:17:39Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Synthetic Poisoning Attacks: The Impact of Poisoned MRI Image on U-Net Brain Tumor Segmentation [8.955776982854985]
脳腫瘍分離のためのU-Netモデルのロバスト性およびセグメンテーション精度に及ぼす合成MRIデータの影響について検討した。合成データ汚染の影響を定量化するために、U-Netモデルを段階的に"汚染された"データセットに訓練する。
論文参考訳（メタデータ） (2025-02-06T07:21:19Z)
Merging synthetic and real embryo data for advanced AI predictions [69.07284335967019]
我々は、作成した2つのデータセットを用いて、2つの生成モデルをトレーニングし、既存の1つのデータセットを使用して、様々な細胞レベルで合成胚画像を生成する。これらは実画像と組み合わせて、胚細胞ステージ予測のための分類モデルを訓練した。その結果,実データと合成画像を組み合わせることで分類性能が向上し,実データのみをトレーニングした場合の94.5%に比べて97%の精度が得られた。
論文参考訳（メタデータ） (2024-12-02T08:24:49Z)
Evaluating and Improving the Effectiveness of Synthetic Chest X-Rays for Medical Image Analysis [16.272529509870147]
下流タスクのための合成胸部X線画像を生成するベストプラクティスは、単一放出ラベルの条件付けや、幾何学的に変換されたセグメンテーションマスクである。提案手法は, プロキシモデルを用いたり, ラジオロジカルフィードバックを用いた合成データの質を向上させる手法である。
論文参考訳（メタデータ） (2024-11-27T18:47:09Z)
Synthetic ECG Generation for Data Augmentation and Transfer Learning in Arrhythmia Classification [1.7614607439356635]
本稿では,Deep Learningと異なる生成モデルを用いて生成した合成データの有用性について検討する。本研究では, 合成事前学習モデルを微調整し, 実データの比率を増大させることにより, 伝達学習の効果について検討する。
論文参考訳（メタデータ） (2024-11-27T15:46:34Z)
Can Medical Vision-Language Pre-training Succeed with Purely Synthetic Data? [8.775988650381397]
医療ビジョン言語による事前トレーニングモデルのトレーニングには、ペアで高品質な画像テキストデータを備えたデータセットが必要である。近年の大規模言語モデルの進歩により,大規模合成画像テキストペアの生成が可能になった。多様な高品質な合成データセットを構築するための自動パイプラインを提案する。
論文参考訳（メタデータ） (2024-10-17T13:11:07Z)
Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。 SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文参考訳（メタデータ） (2024-03-20T17:59:43Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
Synthetic Data as Validation [9.506660694536649]
CT(Computed tomography)ボリュームにおける早期癌検出のための合成データの有用性について述べる。我々は,人工腫瘍を用いた外部データのストリーム上で,AIモデルを継続的にトレーニングする,新たな連続学習フレームワークを構築した。動的に拡張された合成データをトレーニングし、検証するAIモデルは、実世界のデータにのみトレーニングされ、検証されるモデルより一貫して優れている。
論文参考訳（メタデータ） (2023-10-24T17:59:55Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
Bridging the Gap: Enhancing the Utility of Synthetic Data via Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。 Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文参考訳（メタデータ） (2023-05-17T10:50:38Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Differentially Private Diffusion Models Generate Useful Synthetic Images [53.94025967603649]
近年の研究では、いくつかの拡散モデルの出力がトレーニングデータのプライバシを保持していないことが報告されている。 CIFAR-10 と Camelyon17 のSOTA 結果を得た。以上の結果から,差分プライバシーで微調整された拡散モデルが有用かつ実証可能なプライベートな合成データを生成できることが示唆された。
論文参考訳（メタデータ） (2023-02-27T15:02:04Z)
Evaluation of the Synthetic Electronic Health Records [3.255030588361125]
本研究は、合成データセットのサンプルワイズ評価のための類似性と特異性という2つの指標を概説する。本研究は,Cystic Fibrosis (CF) 患者の電子的健康記録を合成するために,いくつかの最先端の遺伝子モデルを用いて提案された概念を実証する。
論文参考訳（メタデータ） (2022-10-16T22:46:08Z)
Bootstrapping Your Own Positive Sample: Contrastive Learning With Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。 EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文参考訳（メタデータ） (2021-04-07T06:02:04Z)
Deep learning-based COVID-19 pneumonia classification using chest CT images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文参考訳（メタデータ） (2021-02-18T21:14:52Z)
Overcoming Barriers to Data Sharing with Medical Image Generation: A Comprehensive Evaluation [17.983449515155414]
我々は、GAN(Generative Adversarial Networks)を用いて、合成患者データからなる医用画像データセットを作成する。合成画像は、理想的には、ソースデータセットと類似した統計特性を持つが、機密性の高い個人情報は含まない。合成画像の品質は、合成データセットと実データセットの両方で訓練された予測モデルの性能差によって測定する。
論文参考訳（メタデータ） (2020-11-29T15:41:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。