論文の概要: Language-Guided Trajectory Traversal in Disentangled Stable Diffusion Latent Space for Factorized Medical Image Generation
- arxiv url: http://arxiv.org/abs/2503.23623v1
- Date: Sun, 30 Mar 2025 23:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.215061
- Title: Language-Guided Trajectory Traversal in Disentangled Stable Diffusion Latent Space for Factorized Medical Image Generation
- Title(参考訳): 因子化医用画像生成のための安定拡散遅延空間における言語誘導軌道
- Authors: Zahra TehraniNasab, Amar Kumar, Tal Arbel,
- Abstract要約: 医用画像データセットに微調整を施した事前学習型視覚言語基礎モデルの能力について, 潜時無拘束化を行うための第1報を提示する。
言語誘導の安定拡散は、本質的に画像生成のキー属性を分解することを学ぶことを実証する。
生成モデルの潜在空間軌跡を識別し,分離し,操作するための枠組みを考案し,医用画像合成の精密制御を容易にする。
- 参考スコア(独自算出の注目度): 0.8397730500554048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have demonstrated a remarkable ability to generate photorealistic images from natural language prompts. These high-resolution, language-guided synthesized images are essential for the explainability of disease or exploring causal relationships. However, their potential for disentangling and controlling latent factors of variation in specialized domains like medical imaging remains under-explored. In this work, we present the first investigation of the power of pre-trained vision-language foundation models, once fine-tuned on medical image datasets, to perform latent disentanglement for factorized medical image generation and interpolation. Through extensive experiments on chest X-ray and skin datasets, we illustrate that fine-tuned, language-guided Stable Diffusion inherently learns to factorize key attributes for image generation, such as the patient's anatomical structures or disease diagnostic features. We devise a framework to identify, isolate, and manipulate key attributes through latent space trajectory traversal of generative models, facilitating precise control over medical image synthesis.
- Abstract(参考訳): テキストと画像の拡散モデルでは、自然言語のプロンプトからフォトリアリスティックな画像を生成できることが顕著に示されている。
これらの高解像度の言語誘導合成画像は、病気の説明可能性や因果関係の探索に不可欠である。
しかし、医学画像のような特殊な領域における潜伏因子を遠ざけ、制御する可能性については、いまだ研究が進んでいない。
本研究では,医用画像データセットを微調整した事前学習型視覚言語基礎モデルの能力について,第1報,第1報,第2報,第2報,第2報,第2報,第1報,第2報,第1報,第2報,第1報,第2報,第1報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,第2報,
胸部X線および皮膚のデータセットに関する広範な実験を通して、微調整された言語誘導安定拡散は、患者の解剖学的構造や疾患診断の特徴など、画像生成の重要な属性を因果分解することが本質的に学習されていることを示す。
本研究では, 医用画像合成の精密制御を容易にするため, 潜在空間軌跡から重要な属性を同定し, 分離し, 操作する枠組みを考案する。
関連論文リスト
- Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。
本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文 参考訳(メタデータ) (2025-04-20T01:54:18Z) - PRISM: High-Resolution & Precise Counterfactual Medical Image Generation using Language-guided Stable Diffusion [5.504796147401483]
医用画像のための信頼性と一般化可能な深層学習システムの開発は、素早い相関関係、データ不均衡、データセットにおける限られたテキストアノテーションなどにより、大きな障害に直面している。
PRISMは,基礎モデルを利用して高分解能・言語誘導型医用画像対物を生成するフレームワークである。
論文 参考訳(メタデータ) (2025-02-28T21:32:08Z) - DiffDoctor: Diagnosing Image Diffusion Models Before Treating [57.82359018425674]
DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。
我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。
次に、学習したアーティファクト検出器が第2段階に関与し、ピクセルレベルのフィードバックを提供することで拡散モデルを最適化する。
論文 参考訳(メタデータ) (2025-01-21T18:56:41Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
大規模なデータセットのトレーニングによるスケーリングは、画像生成の品質と忠実度を高め、拡散モデルによる操作を可能にすることが示されている。
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
本研究は,異なる微調整方式と組み合わせた場合,様々なシナリオにおいて顕著な性能向上を示すものである。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics [0.0]
医用画像における視覚的属性は、医用画像の診断関連成分を明確にすることを目指している。
本稿では、潜在拡散モデルとドメイン固有大言語モデルを組み合わせた新しい生成的視覚属性手法を提案する。
結果として生じるシステムは、ゼロショット局所化疾患誘導を含む様々な潜在能力を示す。
論文 参考訳(メタデータ) (2024-01-02T19:51:49Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - Trade-offs in Fine-tuned Diffusion Models Between Accuracy and
Interpretability [5.865936619867771]
生成拡散モデルにおける従来の計測値とモデル解釈可能性による画像の忠実度との間に連続的なトレードオフが生じる。
我々は、真に解釈可能な生成モデルを開発するための設計原則のセットを提示する。
論文 参考訳(メタデータ) (2023-03-31T09:11:26Z) - RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。
テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。
得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-11-23T06:58:09Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。