論文の概要: Chest-Diffusion: A Light-Weight Text-to-Image Model for Report-to-CXR Generation
- arxiv url: http://arxiv.org/abs/2407.00752v1
- Date: Sun, 30 Jun 2024 16:19:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 01:37:22.741358
- Title: Chest-Diffusion: A Light-Weight Text-to-Image Model for Report-to-CXR Generation
- Title(参考訳): Chest-Diffusion:CXR生成のための軽量テキスト・画像モデル
- Authors: Peng Huang, Xue Gao, Lihong Huang, Jing Jiao, Xiaokang Li, Yuanyuan Wang, Yi Guo,
- Abstract要約: 本稿では,CXR生成のための新しい軽量トランスフォーマーベース拡散モデル学習フレームワークであるChest-Diffusionを提案する。
Chest-Diffusionはドメイン固有のテキストエンコーダを使用して画像生成をガイドし、生成した画像の信頼性を向上させる。
- 参考スコア(独自算出の注目度): 6.857422541973864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation has important implications for generation of diverse and controllable images. Several attempts have been made to adapt Stable Diffusion (SD) to the medical domain. However, the large distribution difference between medical reports and natural texts, as well as high computational complexity in common stable diffusion limit the authenticity and feasibility of the generated medical images. To solve above problems, we propose a novel light-weight transformer-based diffusion model learning framework, Chest-Diffusion, for report-to-CXR generation. Chest-Diffusion employs a domain-specific text encoder to obtain accurate and expressive text features to guide image generation, improving the authenticity of the generated images. Meanwhile, we introduce a light-weight transformer architecture as the denoising model, reducing the computational complexity of the diffusion model. Experiments demonstrate that our Chest-Diffusion achieves the lowest FID score 24.456, under the computation budget of 118.918 GFLOPs, which is nearly one-third of the computational complexity of SD.
- Abstract(参考訳): テキスト・ツー・イメージ生成は多彩で制御可能な画像の生成に重要な意味を持つ。
安定拡散(SD)を医療領域に適応させる試みがいくつかなされている。
しかし, 医学報告と自然テキストの分布差が大きく, 共有拡散における計算複雑性も大きく, 生成した医用画像の信頼性と実現可能性に限界がある。
上記の問題を解決するために,Chest-Diffusionという,軽量トランスフォーマーを用いた拡散モデル学習フレームワークを提案する。
Chest-Diffusionはドメイン固有のテキストエンコーダを使用して画像生成をガイドし、生成した画像の信頼性を向上させる。
一方,本研究では,拡散モデルの計算複雑性を低減し,軽量トランスフォーマーアーキテクチャをデノナイズモデルとして導入する。
我々のケスト拡散は、SDの計算複雑性の3分の1近くである118.918 GFLOPsの計算予算の下で、最低FIDスコア24.456を達成することを示した。
関連論文リスト
- Similarity-aware Syncretic Latent Diffusion Model for Medical Image Translation with Representation Learning [15.234393268111845]
非造影CT(non-contrast CT)は画像のコントラストと解剖学的視認性を低下させ、診断の不確実性を増大させる可能性がある。
医用画像翻訳のための潜時拡散モデルに基づく新しいシンプレティック生成モデル(S$2$LDM)を提案する。
S$2$LDMは、シンプレティックエンコーディングと拡散を通じて、異なるモーダル画像の類似性を高め、潜伏空間における重複情報を促進し、対照的に強調された領域でより詳細な医療画像を生成する。
論文 参考訳(メタデータ) (2024-06-20T03:54:41Z) - VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics [0.0]
医用画像における視覚的属性は、医用画像の診断関連成分を明確にすることを目指している。
本稿では、潜在拡散モデルとドメイン固有大言語モデルを組み合わせた新しい生成的視覚属性手法を提案する。
結果として生じるシステムは、ゼロショット局所化疾患誘導を含む様々な潜在能力を示す。
論文 参考訳(メタデータ) (2024-01-02T19:51:49Z) - BS-Diff: Effective Bone Suppression Using Conditional Diffusion Models
from Chest X-Ray Images [21.19843479423806]
胸部X線(CXR)は肺検診の低用量モダリティとして一般的に用いられる。
肺領域の約75%は骨と重なり、疾患の検出と診断を妨げている。
骨抑制技術が導入されたが、現在の病院の二重エネルギーサブトラクションイメージング技術は、高価な機器と高放射線にさらされる被検体を必要としている。
本稿では,U-Netアーキテクチャを備えた条件拡散モデルと,オートエンコーダを組み込むシンプルな拡張モジュールを備える骨抑制フレームワークBS-Diffを提案する。
論文 参考訳(メタデータ) (2023-11-26T15:13:13Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - Zero-shot Medical Image Translation via Frequency-Guided Diffusion
Models [9.15810015583615]
構造保存画像変換のための拡散モデルを導出するために周波数領域フィルタを用いた周波数誘導拡散モデル(FGDM)を提案する。
その設計に基づいて、FGDMはゼロショット学習を可能にし、ターゲットドメインのデータのみに基づいてトレーニングし、ソース・ツー・ターゲットドメインの変換に直接使用することができる。
FGDMは、Frechet Inception Distance(FID)、Peak Signal-to-Noise Ratio(PSNR)、および構造的類似性の測定値において、最先端手法(GANベース、VAEベース、拡散ベース)よりも優れていた
論文 参考訳(メタデータ) (2023-04-05T20:47:40Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。
テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。
得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-11-23T06:58:09Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Image Synthesis with Disentangled Attributes for Chest X-Ray Nodule
Augmentation and Detection [52.93342510469636]
肺癌早期検診では胸部X線像の肺結節検出が一般的である。
ディープラーニングに基づくコンピュータ支援診断(CAD)システムは、CXRの結節スクリーニングのために放射線科医をサポートすることができる。
このようなデータセットの可用性を損なうため,データ拡張のために肺結節合成法を提案する。
論文 参考訳(メタデータ) (2022-07-19T16:38:48Z) - Preservation of High Frequency Content for Deep Learning-Based Medical
Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。
本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。