論文の概要: Improving text-conditioned latent diffusion for cancer pathology
- arxiv url: http://arxiv.org/abs/2412.06487v1
- Date: Mon, 09 Dec 2024 13:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:56:17.949347
- Title: Improving text-conditioned latent diffusion for cancer pathology
- Title(参考訳): がん病理におけるテキスト条件付き潜伏拡散の改善
- Authors: Aakash Madhav Rao, Debayan Gupta,
- Abstract要約: 生成モデルは超現実的なデータ合成を可能にしました
現実的な画像を合成するための1つのアルゴリズムは拡散であり、反復的に画像をノイズに変換し、このノイズから回復過程を学ぶ。
VAEは、潜在空間における複雑な高解像度画像の表現を学習することを可能にする。
拡散とVOEの結婚により、オートエンコーダの潜伏空間での拡散が可能となり、拡散の現実的な生成能力を活用することができる。
- 参考スコア(独自算出の注目度): 0.5919433278490629
- License:
- Abstract: The development of generative models in the past decade has allowed for hyperrealistic data synthesis. While potentially beneficial, this synthetic data generation process has been relatively underexplored in cancer histopathology. One algorithm for synthesising a realistic image is diffusion; it iteratively converts an image to noise and learns the recovery process from this noise [Wang and Vastola, 2023]. While effective, it is highly computationally expensive for high-resolution images, rendering it infeasible for histopathology. The development of Variational Autoencoders (VAEs) has allowed us to learn the representation of complex high-resolution images in a latent space. A vital by-product of this is the ability to compress high-resolution images to space and recover them lossless. The marriage of diffusion and VAEs allows us to carry out diffusion in the latent space of an autoencoder, enabling us to leverage the realistic generative capabilities of diffusion while maintaining reasonable computational requirements. Rombach et al. [2021b] and Yellapragada et al. [2023] build foundational models for this task, paving the way to generate realistic histopathology images. In this paper, we discuss the pitfalls of current methods, namely [Yellapragada et al., 2023] and resolve critical errors while proposing improvements along the way. Our methods achieve an FID score of 21.11, beating its SOTA counterparts in [Yellapragada et al., 2023] by 1.2 FID, while presenting a train-time GPU memory usage reduction of 7%.
- Abstract(参考訳): 過去10年間の生成モデルの開発により、超現実的なデータ合成が可能になった。
潜在的に有益であるが、この合成データ生成プロセスは癌病理学において比較的過小評価されている。
現実的な画像を合成するための1つのアルゴリズムは拡散であり、反復的に画像をノイズに変換し、このノイズ(Wang and Vastola, 2023)から回復過程を学ぶ。
効果はあるものの、高解像度画像では高い計算コストがかかり、病理学では不可能である。
可変オートエンコーダ(VAE)の開発により,潜時空間における複雑な高解像度画像の表現を学習できるようになった。
この重要な副産物は、高解像度画像を宇宙に圧縮し、それらを無傷で回収する能力である。
拡散とVOEの融合により、オートエンコーダの潜伏空間での拡散が可能となり、合理的な計算条件を維持しつつ、拡散の現実的な生成能力を活用できる。
Rombach et al [2021b] と Yellapragada et al [2023] は、このタスクの基礎モデルを構築し、現実的な病理像を生成する道を開いた。
本稿では,現在の手法,すなわち [Yellapragada et al , 2023] の落とし穴について論じ,その過程で改善を提案する。
提案手法は21.11のFIDスコアを達成し,[Yellapragada et al , 2023]のSOTAスコアを1.2 FIDで上回り,GPUメモリ使用率を7%削減した。
関連論文リスト
- Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z) - Memory-efficient High-resolution OCT Volume Synthesis with Cascaded Amortized Latent Diffusion Models [48.87160158792048]
本稿では,高分解能CTボリュームをメモリ効率よく合成できるCA-LDM(Cascaded amortized Latent diffusion model)を提案する。
公開高解像度OCTデータセットを用いた実験により、我々の合成データは、既存の手法の能力を超越した、現実的な高解像度かつグローバルな特徴を持つことが示された。
論文 参考訳(メタデータ) (2024-05-26T10:58:22Z) - Paired Diffusion: Generation of related, synthetic PET-CT-Segmentation scans using Linked Denoising Diffusion Probabilistic Models [0.0]
本研究では,複数のPET-CT-腫瘍マスクペアをペアネットワークと条件エンコーダを用いて生成できる新しいアーキテクチャを提案する。
我々のアプローチには、DDPMサンプリング一貫性を改善するための革新的で時間的なステップ制御機構とノイズ探索戦略が含まれる。
論文 参考訳(メタデータ) (2024-03-26T14:21:49Z) - Latent Diffusion Models with Image-Derived Annotations for Enhanced
AI-Assisted Cancer Diagnosis in Histopathology [0.0]
本研究では,自動抽出画像特徴量から構造化テキストプロンプトを構成する手法を提案する。
画像由来の特徴は, 健康なラベルや癌ラベルに限らず, Fr'echet Inception Distance (FID) を178.8から90.2に改善した。
また、病理学者は合成画像の検出が困難であり、中央値の感度/特異度は0.15/0.55であることを示した。
論文 参考訳(メタデータ) (2023-12-15T13:48:55Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Augmenting medical image classifiers with synthetic data from latent
diffusion models [12.077733447347592]
我々は,潜伏拡散モデルが皮膚疾患の画像を生成することを実証した。
我々は,複数の生成戦略を用いて生成した458,920個の合成画像の新しいデータセットを生成し,解析する。
論文 参考訳(メタデータ) (2023-08-23T22:34:49Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - Dimensionality-Varying Diffusion Process [52.52681373641533]
拡散モデルは、信号破壊プロセスを逆転して新しいデータを生成することを学習する。
信号分解による前方拡散過程の理論的一般化を行う。
FFHQで訓練された拡散モデルのFIDを,52.40から10.46までの1024Times1024$解像度で改善する。
論文 参考訳(メタデータ) (2022-11-29T09:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。