論文の概要: Anatomy-Grounded Weakly Supervised Prompt Tuning for Chest X-ray Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.10633v1
- Date: Thu, 12 Jun 2025 12:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.72427
- Title: Anatomy-Grounded Weakly Supervised Prompt Tuning for Chest X-ray Latent Diffusion Models
- Title(参考訳): 胸部X線潜在拡散モデルのための解剖学的視野弱視型プロンプトチューニング
- Authors: Konstantinos Vilouras, Ilias Stogiannidis, Junyu Yan, Alison Q. O'Neil, Sotirios A. Tsaftaris,
- Abstract要約: 標準テキスト条件付潜時拡散モデルでは, 対象スキャンの対応する領域と, 臨床上の関連情報が一致しないことが示されている。
句接地のような下流のタスクに効率的に再利用できるように,事前訓練されたモデルにおけるマルチモーダルアライメントを改善するための微調整フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.94567513238762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent Diffusion Models have shown remarkable results in text-guided image synthesis in recent years. In the domain of natural (RGB) images, recent works have shown that such models can be adapted to various vision-language downstream tasks with little to no supervision involved. On the contrary, text-to-image Latent Diffusion Models remain relatively underexplored in the field of medical imaging, primarily due to limited data availability (e.g., due to privacy concerns). In this work, focusing on the chest X-ray modality, we first demonstrate that a standard text-conditioned Latent Diffusion Model has not learned to align clinically relevant information in free-text radiology reports with the corresponding areas of the given scan. Then, to alleviate this issue, we propose a fine-tuning framework to improve multi-modal alignment in a pre-trained model such that it can be efficiently repurposed for downstream tasks such as phrase grounding. Our method sets a new state-of-the-art on a standard benchmark dataset (MS-CXR), while also exhibiting robust performance on out-of-distribution data (VinDr-CXR). Our code will be made publicly available.
- Abstract(参考訳): 近年,テキスト誘導画像合成において遅延拡散モデルが顕著な成果を上げている。
自然(RGB)画像の領域において、近年の研究により、このようなモデルは様々な視覚言語下流タスクに適応でき、ほとんど監督を伴わないことが示されている。
それとは対照的に、テキストから画像へのラテント拡散モデルは、主にデータ可用性の制限(プライバシー上の懸念など)のために、医用画像の分野で比較的過小評価されている。
本研究は, 胸部X線モダリティに着目し, 標準テキスト条件の潜在拡散モデルが, 対象スキャンの対応する領域と, 臨床関連情報を一致させることを学習していないことを最初に実証する。
そこで,この問題を軽減するために,事前学習モデルのマルチモーダルアライメントを改善するための微調整フレームワークを提案する。
提案手法は,標準ベンチマークデータセット(MS-CXR)に新たな最先端性を設定するとともに,分散データ(VinDr-CXR)にロバストな性能を示す。
私たちのコードは公開されます。
関連論文リスト
- Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - DiNO-Diffusion. Scaling Medical Diffusion via Self-Supervised Pre-Training [0.0]
Dino-Diffusionは潜在拡散モデル(LDM)の自己教師型手法である
アノテーションへの依存をなくすことで、私たちのトレーニングは、公開胸部X線データセットから868万以上の未ラベル画像を活用する。
小さなデータプールからでも意味的に多様な合成データセットを生成するために使用できる。
論文 参考訳(メタデータ) (2024-07-16T10:51:21Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - Trade-offs in Fine-tuned Diffusion Models Between Accuracy and
Interpretability [5.865936619867771]
生成拡散モデルにおける従来の計測値とモデル解釈可能性による画像の忠実度との間に連続的なトレードオフが生じる。
我々は、真に解釈可能な生成モデルを開発するための設計原則のセットを提示する。
論文 参考訳(メタデータ) (2023-03-31T09:11:26Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z) - Contrastive Attention for Automatic Chest X-ray Report Generation [124.60087367316531]
ほとんどの場合、正常領域が胸部X線像全体を支配し、これらの正常領域の対応する記述が最終報告を支配している。
本稿では,現在の入力画像と通常の画像を比較してコントラスト情報を抽出するContrastive Attention(CA)モデルを提案する。
2つの公開データセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-13T11:20:31Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。