Fugu-MT 論文翻訳(概要): Chest-Diffusion: A Light-Weight Text-to-Image Model for Report-to-CXR Generation

論文の概要: Chest-Diffusion: A Light-Weight Text-to-Image Model for Report-to-CXR Generation

arxiv url: http://arxiv.org/abs/2407.00752v1
Date: Sun, 30 Jun 2024 16:19:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 01:37:22.741358
Title: Chest-Diffusion: A Light-Weight Text-to-Image Model for Report-to-CXR Generation
Title（参考訳）: Chest-Diffusion:CXR生成のための軽量テキスト・画像モデル
Authors: Peng Huang, Xue Gao, Lihong Huang, Jing Jiao, Xiaokang Li, Yuanyuan Wang, Yi Guo,
Abstract要約: 本稿では,CXR生成のための新しい軽量トランスフォーマーベース拡散モデル学習フレームワークであるChest-Diffusionを提案する。 Chest-Diffusionはドメイン固有のテキストエンコーダを使用して画像生成をガイドし、生成した画像の信頼性を向上させる。
参考スコア（独自算出の注目度）: 6.857422541973864
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image generation has important implications for generation of diverse and controllable images. Several attempts have been made to adapt Stable Diffusion (SD) to the medical domain. However, the large distribution difference between medical reports and natural texts, as well as high computational complexity in common stable diffusion limit the authenticity and feasibility of the generated medical images. To solve above problems, we propose a novel light-weight transformer-based diffusion model learning framework, Chest-Diffusion, for report-to-CXR generation. Chest-Diffusion employs a domain-specific text encoder to obtain accurate and expressive text features to guide image generation, improving the authenticity of the generated images. Meanwhile, we introduce a light-weight transformer architecture as the denoising model, reducing the computational complexity of the diffusion model. Experiments demonstrate that our Chest-Diffusion achieves the lowest FID score 24.456, under the computation budget of 118.918 GFLOPs, which is nearly one-third of the computational complexity of SD.
Abstract（参考訳）: テキスト・ツー・イメージ生成は多彩で制御可能な画像の生成に重要な意味を持つ。安定拡散(SD)を医療領域に適応させる試みがいくつかなされている。しかし, 医学報告と自然テキストの分布差が大きく, 共有拡散における計算複雑性も大きく, 生成した医用画像の信頼性と実現可能性に限界がある。上記の問題を解決するために,Chest-Diffusionという,軽量トランスフォーマーを用いた拡散モデル学習フレームワークを提案する。 Chest-Diffusionはドメイン固有のテキストエンコーダを使用して画像生成をガイドし、生成した画像の信頼性を向上させる。一方,本研究では,拡散モデルの計算複雑性を低減し,軽量トランスフォーマーアーキテクチャをデノナイズモデルとして導入する。我々のケスト拡散は、SDの計算複雑性の3分の1近くである118.918 GFLOPsの計算予算の下で、最低FIDスコア24.456を達成することを示した。

関連論文リスト

MedDiff-FT: Data-Efficient Diffusion Model Fine-tuning with Structural Guidance for Controllable Medical Image Synthesis [19.36433173105439]
MedDiff-FTは、拡散基盤モデルを微調整して、構造的依存性と領域特異性を持つ医用画像を生成する、制御可能な医用画像生成法である。このフレームワークは、生成品質、多様性、計算効率を効果的にバランスさせ、医療データ拡張のための実用的なソリューションを提供する。
論文参考訳（メタデータ） (2025-07-01T02:22:32Z)
Taming Stable Diffusion for Computed Tomography Blind Super-Resolution [20.195025131749944]
高分解能CTは診断に必須であるが,放射線曝露の増大が必要である。深層学習法はCTの超解像において有望であるが、複雑な劣化と限られた医療訓練データに関する課題に直面している。我々は,CTブラインド超解像に安定拡散を適応させる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-13T06:45:05Z)
Anatomy-Grounded Weakly Supervised Prompt Tuning for Chest X-ray Latent Diffusion Models [8.94567513238762]
標準テキスト条件付潜時拡散モデルでは, 対象スキャンの対応する領域と, 臨床上の関連情報が一致しないことが示されている。句接地のような下流のタスクに効率的に再利用できるように,事前訓練されたモデルにおけるマルチモーダルアライメントを改善するための微調整フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-12T12:19:18Z)
VICCA: Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback [1.5839621757142595]
本稿では,AI生成医療報告のセマンティックアライメントと位置決め精度の向上を目的とした新しいフレームワークを提案する。元の画像と生成された画像の特徴を比較することにより、デュアルスコーリングシステムを導入する。このアプローチは既存の手法よりも優れており、病理の局在化やテキスト・ツー・イメージのアライメントにおいて最先端の結果が得られている。
論文参考訳（メタデータ） (2025-01-29T16:02:16Z)
Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文参考訳（メタデータ） (2024-12-30T01:59:34Z)
Multiscale Latent Diffusion Model for Enhanced Feature Extraction from Medical Images [5.395912799904941]
CTスキャナーモデルと取得プロトコルのバリエーションは、抽出した放射能特性に有意な変動をもたらす。 LTDiff++は医療画像の特徴抽出を強化するために設計されたマルチスケール潜在拡散モデルである。
論文参考訳（メタデータ） (2024-10-05T02:13:57Z)
Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文参考訳（メタデータ） (2024-09-29T07:14:16Z)
StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文参考訳（メタデータ） (2024-08-11T01:22:29Z)
Similarity-aware Syncretic Latent Diffusion Model for Medical Image Translation with Representation Learning [15.234393268111845]
非造影CT(non-contrast CT)は画像のコントラストと解剖学的視認性を低下させ、診断の不確実性を増大させる可能性がある。医用画像翻訳のための潜時拡散モデルに基づく新しいシンプレティック生成モデル(S$2$LDM)を提案する。 S$2$LDMは、シンプレティックエンコーディングと拡散を通じて、異なるモーダル画像の類似性を高め、潜伏空間における重複情報を促進し、対照的に強調された領域でより詳細な医療画像を生成する。
論文参考訳（メタデータ） (2024-06-20T03:54:41Z)
BS-Diff: Effective Bone Suppression Using Conditional Diffusion Models from Chest X-Ray Images [21.19843479423806]
胸部X線(CXR)は肺検診の低用量モダリティとして一般的に用いられる。肺領域の約75%は骨と重なり、疾患の検出と診断を妨げている。骨抑制技術が導入されたが、現在の病院の二重エネルギーサブトラクションイメージング技術は、高価な機器と高放射線にさらされる被検体を必要としている。本稿では,U-Netアーキテクチャを備えた条件拡散モデルと,オートエンコーダを組み込むシンプルな拡張モジュールを備える骨抑制フレームワークBS-Diffを提案する。
論文参考訳（メタデータ） (2023-11-26T15:13:13Z)
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。 DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T05:03:48Z)
On Sensitivity and Robustness of Normalization Schemes to Input Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。 DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文参考訳（メタデータ） (2023-06-23T03:09:03Z)
Zero-shot Medical Image Translation via Frequency-Guided Diffusion Models [9.15810015583615]
構造保存画像変換のための拡散モデルを導出するために周波数領域フィルタを用いた周波数誘導拡散モデル(FGDM)を提案する。その設計に基づいて、FGDMはゼロショット学習を可能にし、ターゲットドメインのデータのみに基づいてトレーニングし、ソース・ツー・ターゲットドメインの変換に直接使用することができる。 FGDMは、Frechet Inception Distance(FID)、Peak Signal-to-Noise Ratio(PSNR)、および構造的類似性の測定値において、最先端手法(GANベース、VAEベース、拡散ベース)よりも優れていた
論文参考訳（メタデータ） (2023-04-05T20:47:40Z)
DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文参考訳（メタデータ） (2023-03-13T04:06:42Z)
RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文参考訳（メタデータ） (2022-11-23T06:58:09Z)
SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。 SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文参考訳（メタデータ） (2022-11-22T18:00:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。