Fugu-MT 論文翻訳(概要): How Good Are Synthetic Medical Images? An Empirical Study with Lung Ultrasound

論文の概要: How Good Are Synthetic Medical Images? An Empirical Study with Lung Ultrasound

arxiv url: http://arxiv.org/abs/2310.03608v1
Date: Thu, 5 Oct 2023 15:42:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 15:43:43.691854
Title: How Good Are Synthetic Medical Images? An Empirical Study with Lung Ultrasound
Title（参考訳）: 合成医療画像の良さは? 肺超音波による経験的研究
Authors: Menghan Yu, Sourabh Kulhare, Courosh Mehanian, Charles B Delahunt, Daniel E Shea, Zohreh Laverriere, Ishan Shah, Matthew P Horning
Abstract要約: 生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
参考スコア（独自算出の注目度）: 0.3312417881789094
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Acquiring large quantities of data and annotations is known to be effective for developing high-performing deep learning models, but is difficult and expensive to do in the healthcare context. Adding synthetic training data using generative models offers a low-cost method to deal effectively with the data scarcity challenge, and can also address data imbalance and patient privacy issues. In this study, we propose a comprehensive framework that fits seamlessly into model development workflows for medical image analysis. We demonstrate, with datasets of varying size, (i) the benefits of generative models as a data augmentation method; (ii) how adversarial methods can protect patient privacy via data substitution; (iii) novel performance metrics for these use cases by testing models on real holdout data. We show that training with both synthetic and real data outperforms training with real data alone, and that models trained solely with synthetic data approach their real-only counterparts. Code is available at https://github.com/Global-Health-Labs/US-DCGAN.
Abstract（参考訳）: 大量のデータやアノテーションを取得することは、ハイパフォーマンスなディープラーニングモデルの開発に有効であることは知られているが、医療現場で実施するのは困難で費用がかかる。生成モデルを用いた合成トレーニングデータの追加は、データ不足の課題を効果的に扱うための低コストな方法であり、データの不均衡や患者のプライバシの問題にも対処できる。本研究では,医療画像解析のためのモデル開発ワークフローにシームレスに適合する包括的フレームワークを提案する。さまざまなサイズのデータセットで実証します。 (i)データ拡張法としての生成モデルの利点 (ii)データ置換による患者プライバシ保護の方法 (iii)実際のホールドアウトデータ上でモデルをテストすることにより、これらのユースケースでの新しいパフォーマンス指標を得る。合成データと実データの両方によるトレーニングは、実際のデータだけでのトレーニングよりも優れており、合成データのみによるトレーニングは、実データにのみアプローチする。コードはhttps://github.com/Global-Health-Labs/US-DCGANで入手できる。

関連論文リスト

Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文参考訳（メタデータ） (2025-10-21T16:16:00Z)
Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
Prototype-Guided Diffusion for Digital Pathology: Achieving Foundation Model Performance with Minimal Clinical Data [6.318463500874778]
本研究では,高忠実度合成病理データを大規模に生成するプロトタイプ誘導拡散モデルを提案する。我々のアプローチは、生成したデータの生物学的、診断学的に有意義な変動を保証します。我々は、大規模な実世界のデータセットでトレーニングされたモデルよりも60倍-760倍少ないデータを使用しても、我々の合成データセットでトレーニングされた自己教師機能によって競争性能が向上することを示した。
論文参考訳（メタデータ） (2025-04-15T21:17:39Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
A text-to-tabular approach to generate synthetic patient data using LLMs [0.3628457733531155]
そこで本研究では,患者データへのアクセスを必要としない人工的な患者データを生成する手法を提案する。我々は,大言語モデルの先行医療知識とコンテキスト内学習能力を活用して,現実的な患者データを生成する。
論文参考訳（メタデータ） (2024-12-06T16:10:40Z)
Can Medical Vision-Language Pre-training Succeed with Purely Synthetic Data? [8.775988650381397]
医療ビジョン言語による事前トレーニングモデルのトレーニングには、ペアで高品質な画像テキストデータを備えたデータセットが必要である。近年の大規模言語モデルの進歩により,大規模合成画像テキストペアの生成が可能になった。多様な高品質な合成データセットを構築するための自動パイプラインを提案する。
論文参考訳（メタデータ） (2024-10-17T13:11:07Z)
Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks [5.0243930429558885]
本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
論文参考訳（メタデータ） (2024-07-22T10:31:07Z)
Image Distillation for Safe Data Sharing in Histopathology [10.398266052019675]
病理組織学は、臨床医が正確な診断を行い、疾患の予後を判断し、適切な治療戦略を立案するのに役立つ。深層学習技術が医療分野で成功していることが証明されるにつれ、主な課題はデータ可用性の制限とデータ共有とプライバシに関する懸念である。私たちは、制約なしに共有できる必須情報をカプセル化する小さな合成データセットを作成します。我々は,潜在拡散モデルを訓練し,少数の可読性合成画像を用いた新しい蒸留合成データセットを構築した。
論文参考訳（メタデータ） (2024-06-19T13:19:08Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records [1.338174941551702]
本研究は,Llama 2 LLMが患者情報を正確に反映した合成医療記録を作成する能力を評価するものである。筆者らは,MIMIC-IVデータセットから得られたデータを用いて,現在史の物語を生成することに重点を置いている。このチェーン・オブ・シークレットのアプローチにより、ゼロショットモデルが、ルージュのメトリクス評価に基づいて、微調整されたモデルと同等の結果が得られることが示唆された。
論文参考訳（メタデータ） (2024-03-13T16:17:09Z)
Unconditional Latent Diffusion Models Memorize Patient Imaging Data: Implications for Openly Sharing Synthetic Data [2.1375651880073834]
生成型AIモデルは、オープンデータの共有を容易にするために注目を集めている。これらのモデルは、新規な合成サンプルの代わりに患者データコピーを生成する。我々は,合成データ生成のためのCT,MR,X線データセット上で2次元および3次元潜時拡散モデルを訓練する。
論文参考訳（メタデータ） (2024-02-01T22:58:21Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文参考訳（メタデータ） (2023-10-04T01:36:30Z)
On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文参考訳（メタデータ） (2023-09-30T16:41:04Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。 CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文参考訳（メタデータ） (2021-05-18T15:13:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。