論文の概要: Prototype-Guided Diffusion for Digital Pathology: Achieving Foundation Model Performance with Minimal Clinical Data
- arxiv url: http://arxiv.org/abs/2504.12351v1
- Date: Tue, 15 Apr 2025 21:17:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:35:30.428207
- Title: Prototype-Guided Diffusion for Digital Pathology: Achieving Foundation Model Performance with Minimal Clinical Data
- Title(参考訳): デジタル診断のための原型誘導拡散法:最小臨床データによる基礎モデルの性能向上
- Authors: Ekaterina Redekop, Mara Pleasure, Vedrana Ivezic, Zichen Wang, Kimberly Flores, Anthony Sisk, William Speier, Corey Arnold,
- Abstract要約: 本研究では,高忠実度合成病理データを大規模に生成するプロトタイプ誘導拡散モデルを提案する。
我々のアプローチは、生成したデータの生物学的、診断学的に有意義な変動を保証します。
我々は、大規模な実世界のデータセットでトレーニングされたモデルよりも60倍-760倍少ないデータを使用しても、我々の合成データセットでトレーニングされた自己教師機能によって競争性能が向上することを示した。
- 参考スコア(独自算出の注目度): 6.318463500874778
- License:
- Abstract: Foundation models in digital pathology use massive datasets to learn useful compact feature representations of complex histology images. However, there is limited transparency into what drives the correlation between dataset size and performance, raising the question of whether simply adding more data to increase performance is always necessary. In this study, we propose a prototype-guided diffusion model to generate high-fidelity synthetic pathology data at scale, enabling large-scale self-supervised learning and reducing reliance on real patient samples while preserving downstream performance. Using guidance from histological prototypes during sampling, our approach ensures biologically and diagnostically meaningful variations in the generated data. We demonstrate that self-supervised features trained on our synthetic dataset achieve competitive performance despite using ~60x-760x less data than models trained on large real-world datasets. Notably, models trained using our synthetic data showed statistically comparable or better performance across multiple evaluation metrics and tasks, even when compared to models trained on orders of magnitude larger datasets. Our hybrid approach, combining synthetic and real data, further enhanced performance, achieving top results in several evaluations. These findings underscore the potential of generative AI to create compelling training data for digital pathology, significantly reducing the reliance on extensive clinical datasets and highlighting the efficiency of our approach.
- Abstract(参考訳): デジタル病理学の基礎モデルは、複雑な組織像の有用なコンパクトな特徴表現を学ぶために大量のデータセットを使用する。
しかし、データセットのサイズとパフォーマンスの相関を導くものについては、透明性が制限されているため、単にデータを追加してパフォーマンスを高めることが常に必要かどうかという疑問が提起されている。
本研究では,高忠実性合成病理データを大規模に生成するプロトタイプ誘導拡散モデルを提案する。
本手法は, 標本採取中の組織学的プロトタイプからのガイダンスを用いて, 発生したデータの生物学的, 診断学的に有意な変動を確実にする。
我々は、大規模な実世界のデータセットでトレーニングされたモデルよりも約60x-760倍少ないデータを使用しても、我々の合成データセットでトレーニングされた自己教師機能によって競争性能が向上することを示した。
特に、我々の合成データを用いてトレーニングされたモデルでは、大規模データセットのオーダーでトレーニングされたモデルと比較して、複数の評価指標やタスクに対して統計的に同等またはより良いパフォーマンスを示しました。
合成データと実データを組み合わせたハイブリッドな手法により,性能が向上し,いくつかの評価結果が得られた。
これらの知見は、デジタル病理学のための魅力的なトレーニングデータを作成するための生成AIの可能性を強調し、広範な臨床データセットへの依存を著しく減らし、我々のアプローチの効率を強調している。
関連論文リスト
- Synthetic ECG Generation for Data Augmentation and Transfer Learning in Arrhythmia Classification [1.7614607439356635]
本稿では,Deep Learningと異なる生成モデルを用いて生成した合成データの有用性について検討する。
本研究では, 合成事前学習モデルを微調整し, 実データの比率を増大させることにより, 伝達学習の効果について検討する。
論文 参考訳(メタデータ) (2024-11-27T15:46:34Z) - Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks [5.0243930429558885]
本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
論文 参考訳(メタデータ) (2024-07-22T10:31:07Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Unconditional Latent Diffusion Models Memorize Patient Imaging Data: Implications for Openly Sharing Synthetic Data [2.04850174048739]
我々は、合成データ生成のためのCT、MR、X線データセット上で潜時拡散モデルを訓練する。
そして,新たな自己教師型コピー検出手法を用いて,記憶したトレーニングデータの量を検出する。
以上の結果から,全データセットにまたがる驚くほど高い患者のデータ記憶が得られた。
論文 参考訳(メタデータ) (2024-02-01T22:58:21Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。