論文の概要: Chest-Diffusion: A Light-Weight Text-to-Image Model for Report-to-CXR Generation
- arxiv url: http://arxiv.org/abs/2407.00752v1
- Date: Sun, 30 Jun 2024 16:19:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 01:37:22.741358
- Title: Chest-Diffusion: A Light-Weight Text-to-Image Model for Report-to-CXR Generation
- Title(参考訳): Chest-Diffusion:CXR生成のための軽量テキスト・画像モデル
- Authors: Peng Huang, Xue Gao, Lihong Huang, Jing Jiao, Xiaokang Li, Yuanyuan Wang, Yi Guo,
- Abstract要約: 本稿では,CXR生成のための新しい軽量トランスフォーマーベース拡散モデル学習フレームワークであるChest-Diffusionを提案する。
Chest-Diffusionはドメイン固有のテキストエンコーダを使用して画像生成をガイドし、生成した画像の信頼性を向上させる。
- 参考スコア(独自算出の注目度): 6.857422541973864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation has important implications for generation of diverse and controllable images. Several attempts have been made to adapt Stable Diffusion (SD) to the medical domain. However, the large distribution difference between medical reports and natural texts, as well as high computational complexity in common stable diffusion limit the authenticity and feasibility of the generated medical images. To solve above problems, we propose a novel light-weight transformer-based diffusion model learning framework, Chest-Diffusion, for report-to-CXR generation. Chest-Diffusion employs a domain-specific text encoder to obtain accurate and expressive text features to guide image generation, improving the authenticity of the generated images. Meanwhile, we introduce a light-weight transformer architecture as the denoising model, reducing the computational complexity of the diffusion model. Experiments demonstrate that our Chest-Diffusion achieves the lowest FID score 24.456, under the computation budget of 118.918 GFLOPs, which is nearly one-third of the computational complexity of SD.
- Abstract(参考訳): テキスト・ツー・イメージ生成は多彩で制御可能な画像の生成に重要な意味を持つ。
安定拡散(SD)を医療領域に適応させる試みがいくつかなされている。
しかし, 医学報告と自然テキストの分布差が大きく, 共有拡散における計算複雑性も大きく, 生成した医用画像の信頼性と実現可能性に限界がある。
上記の問題を解決するために,Chest-Diffusionという,軽量トランスフォーマーを用いた拡散モデル学習フレームワークを提案する。
Chest-Diffusionはドメイン固有のテキストエンコーダを使用して画像生成をガイドし、生成した画像の信頼性を向上させる。
一方,本研究では,拡散モデルの計算複雑性を低減し,軽量トランスフォーマーアーキテクチャをデノナイズモデルとして導入する。
我々のケスト拡散は、SDの計算複雑性の3分の1近くである118.918 GFLOPsの計算予算の下で、最低FIDスコア24.456を達成することを示した。
関連論文リスト
- Multiscale Latent Diffusion Model for Enhanced Feature Extraction from Medical Images [5.395912799904941]
CTスキャナーモデルと取得プロトコルのバリエーションは、抽出した放射能特性に有意な変動をもたらす。
LTDiff++は医療画像の特徴抽出を強化するために設計されたマルチスケール潜在拡散モデルである。
論文 参考訳(メタデータ) (2024-10-05T02:13:57Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z) - Similarity-aware Syncretic Latent Diffusion Model for Medical Image Translation with Representation Learning [15.234393268111845]
非造影CT(non-contrast CT)は画像のコントラストと解剖学的視認性を低下させ、診断の不確実性を増大させる可能性がある。
医用画像翻訳のための潜時拡散モデルに基づく新しいシンプレティック生成モデル(S$2$LDM)を提案する。
S$2$LDMは、シンプレティックエンコーディングと拡散を通じて、異なるモーダル画像の類似性を高め、潜伏空間における重複情報を促進し、対照的に強調された領域でより詳細な医療画像を生成する。
論文 参考訳(メタデータ) (2024-06-20T03:54:41Z) - BS-Diff: Effective Bone Suppression Using Conditional Diffusion Models
from Chest X-Ray Images [21.19843479423806]
胸部X線(CXR)は肺検診の低用量モダリティとして一般的に用いられる。
肺領域の約75%は骨と重なり、疾患の検出と診断を妨げている。
骨抑制技術が導入されたが、現在の病院の二重エネルギーサブトラクションイメージング技術は、高価な機器と高放射線にさらされる被検体を必要としている。
本稿では,U-Netアーキテクチャを備えた条件拡散モデルと,オートエンコーダを組み込むシンプルな拡張モジュールを備える骨抑制フレームワークBS-Diffを提案する。
論文 参考訳(メタデータ) (2023-11-26T15:13:13Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - Zero-shot Medical Image Translation via Frequency-Guided Diffusion
Models [9.15810015583615]
構造保存画像変換のための拡散モデルを導出するために周波数領域フィルタを用いた周波数誘導拡散モデル(FGDM)を提案する。
その設計に基づいて、FGDMはゼロショット学習を可能にし、ターゲットドメインのデータのみに基づいてトレーニングし、ソース・ツー・ターゲットドメインの変換に直接使用することができる。
FGDMは、Frechet Inception Distance(FID)、Peak Signal-to-Noise Ratio(PSNR)、および構造的類似性の測定値において、最先端手法(GANベース、VAEベース、拡散ベース)よりも優れていた
論文 参考訳(メタデータ) (2023-04-05T20:47:40Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。
テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。
得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-11-23T06:58:09Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。