論文の概要: PRISM: High-Resolution & Precise Counterfactual Medical Image Generation using Language-guided Stable Diffusion
- arxiv url: http://arxiv.org/abs/2503.00196v1
- Date: Fri, 28 Feb 2025 21:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:24.643614
- Title: PRISM: High-Resolution & Precise Counterfactual Medical Image Generation using Language-guided Stable Diffusion
- Title(参考訳): PRISM:言語誘導安定拡散を用いた高分解能・高精度医療画像生成
- Authors: Amar Kumar, Anita Kriz, Mohammad Havaei, Tal Arbel,
- Abstract要約: 医用画像のための信頼性と一般化可能な深層学習システムの開発は、素早い相関関係、データ不均衡、データセットにおける限られたテキストアノテーションなどにより、大きな障害に直面している。
PRISMは,基礎モデルを利用して高分解能・言語誘導型医用画像対物を生成するフレームワークである。
- 参考スコア(独自算出の注目度): 5.504796147401483
- License:
- Abstract: Developing reliable and generalizable deep learning systems for medical imaging faces significant obstacles due to spurious correlations, data imbalances, and limited text annotations in datasets. Addressing these challenges requires architectures robust to the unique complexities posed by medical imaging data. The rapid advancements in vision-language foundation models within the natural image domain prompt the question of how they can be adapted for medical imaging tasks. In this work, we present PRISM, a framework that leverages foundation models to generate high-resolution, language-guided medical image counterfactuals using Stable Diffusion. Our approach demonstrates unprecedented precision in selectively modifying spurious correlations (the medical devices) and disease features, enabling the removal and addition of specific attributes while preserving other image characteristics. Through extensive evaluation, we show how PRISM advances counterfactual generation and enables the development of more robust downstream classifiers for clinically deployable solutions. To facilitate broader adoption and research, we make our code publicly available at https://github.com/Amarkr1/PRISM.
- Abstract(参考訳): 医用画像のための信頼性と一般化可能な深層学習システムを構築するには、素早い相関、データの不均衡、データセット内の限られたテキストアノテーションなどによる大きな障害に直面している。
これらの課題に対処するには、医療画像データによって引き起こされるユニークな複雑さに頑丈なアーキテクチャが必要である。
自然画像領域における視覚言語基盤モデルの急速な進歩は、医療画像処理にどのように適応できるかという疑問を引き起こしている。
本研究では,基礎モデルを利用して,安定拡散を用いた高分解能・言語誘導型医用画像対物生成を行うPRISMを提案する。
提案手法は,スプリアス相関(医療機器)と疾患の特徴を選択的に修正し,他の画像特性を保ちながら,特定の属性の除去と付加を可能にした前例のない精度を示す。
広範に評価することで、PRISMが対実生成をどのように進め、より堅牢な下流分類器の開発を可能にするかを示す。
より広範な採用と研究を容易にするため、コードをhttps://github.com/Amarkr1/PRISM.comで公開しています。
関連論文リスト
- ProjectedEx: Enhancing Generation in Explainable AI for Prostate Cancer [14.372695272204632]
我々は,解釈可能な多属性説明を提供する生成フレームワークであるProjectedExを提案する。
第二に,機能ピラミッドを組み込むことでエンコーダモジュールを強化し,マルチスケールフィードバックにより潜伏空間を改良する。
第3に,ジェネレータと分類器の両方について総合的な実験を行い,ProjectedExの臨床的意義と有効性を示した。
論文 参考訳(メタデータ) (2025-01-02T18:07:36Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
大規模なデータセットのトレーニングによるスケーリングは、画像生成の品質と忠実度を高め、拡散モデルによる操作を可能にすることが示されている。
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
本研究は,異なる微調整方式と組み合わせた場合,様々なシナリオにおいて顕著な性能向上を示すものである。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - Efficient MedSAMs: Segment Anything in Medical Images on Laptop [69.28565867103542]
我々は,迅速な医用画像のセグメンテーションに特化した初の国際コンペを組織した。
トップチームは軽量なセグメンテーション基盤モデルを開発し、効率的な推論パイプラインを実装した。
最高のパフォーマンスのアルゴリズムは、臨床導入を促進するために、ユーザフレンドリーなインターフェースを備えたオープンソースソフトウェアに組み込まれている。
論文 参考訳(メタデータ) (2024-12-20T17:33:35Z) - HistoSPACE: Histology-Inspired Spatial Transcriptome Prediction And Characterization Engine [0.0]
HistoSPACEモデルは、STデータで利用可能な組織像の多様性を調べ、組織像から分子的洞察を抽出する。
モデルは、現代のアルゴリズムと比較して大きな効率性を示し、残余のクロスバリデーションにおいて0.56の相関関係を示す。
論文 参考訳(メタデータ) (2024-08-07T07:12:52Z) - MedMNIST-C: Comprehensive benchmark and improved classifier robustness by simulating realistic image corruptions [0.13108652488669734]
神経ネットワークに基づくシステムの臨床実践への統合は、ドメインの一般化と堅牢性に関連する課題によって制限される。
我々は、12のデータセットと9つの画像モダリティをカバーするMedMNIST+コレクションに基づくベンチマークデータセットであるMedMNIST-Cを作成し、オープンソース化した。
論文 参考訳(メタデータ) (2024-06-25T13:20:39Z) - Improving Medical Report Generation with Adapter Tuning and Knowledge
Enhancement in Vision-Language Foundation Models [26.146579369491718]
この研究は、一般的な大規模基盤モデルをカスタマイズするための最先端のビジョン言語事前学習および微調整アプローチBLIP-2に基づく。
ImageCLEFmedical 2023のデータセットのバリデーションでは、いくつかの最先端手法に対して、最も優れた平均結果が得られる。
論文 参考訳(メタデータ) (2023-12-07T01:01:45Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。