論文の概要: Medical diffusion on a budget: Textual Inversion for medical image generation
- arxiv url: http://arxiv.org/abs/2303.13430v2
- Date: Wed, 11 Sep 2024 14:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 22:28:06.294334
- Title: Medical diffusion on a budget: Textual Inversion for medical image generation
- Title(参考訳): 予算上の医療拡散:医療画像生成のためのテキスト・インバージョン
- Authors: Bram de Wilde, Anindo Saha, Maarten de Rooij, Henkjan Huisman, Geert Litjens,
- Abstract要約: スクラッチからトレーニングするには、大きなキャプション付きデータセットと重要な計算リソースが必要である。
本研究は, 予め訓練した安定拡散モデルを医用画像モダリティに適応させることが, テキスト埋め込みの訓練によって達成可能であることを示す。
トレーニングされた埋め込みはコンパクト(1MB未満)で、プライバシー上の懸念を減らしてデータ共有を容易にする。
- 参考スコア(独自算出の注目度): 3.0826983115939823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models for text-to-image generation, known for their efficiency, accessibility, and quality, have gained popularity. While inference with these systems on consumer-grade GPUs is increasingly feasible, training from scratch requires large captioned datasets and significant computational resources. In medical image generation, the limited availability of large, publicly accessible datasets with text reports poses challenges due to legal and ethical concerns. This work shows that adapting pre-trained Stable Diffusion models to medical imaging modalities is achievable by training text embeddings using Textual Inversion. In this study, we experimented with small medical datasets (100 samples each from three modalities) and trained within hours to generate diagnostically accurate images, as judged by an expert radiologist. Experiments with Textual Inversion training and inference parameters reveal the necessity of larger embeddings and more examples in the medical domain. Classification experiments show an increase in diagnostic accuracy (AUC) for detecting prostate cancer on MRI, from 0.78 to 0.80. Further experiments demonstrate embedding flexibility through disease interpolation, combining pathologies, and inpainting for precise disease appearance control. The trained embeddings are compact (less than 1 MB), enabling easy data sharing with reduced privacy concerns.
- Abstract(参考訳): テキスト・画像生成のための拡散モデルは、その効率、アクセシビリティ、品質で知られており、人気を集めている。
コンシューマグレードのGPU上のこれらのシステムによる推論は、ますます実現可能になっているが、スクラッチからのトレーニングには、大きなキャプション付きデータセットと重要な計算リソースが必要である。
医用画像生成では、テキストレポート付き大規模で一般公開されたデータセットの可用性が制限されているため、法的および倫理的懸念による課題が生じる。
本研究は,テキストインバージョンを用いたテキスト埋め込みのトレーニングにより,事前学習した安定拡散モデルを医用画像モダリティに適応させることが可能であることを示す。
本研究では,3つのモダリティからそれぞれ100サンプルの小さな医療データセットを実験し,診断精度の高い画像を生成するために数時間以内に訓練を行った。
テキスト・インバージョン・トレーニングと推論・パラメータを用いた実験は、より大きな埋め込みや医療領域におけるより多くの例の必要性を明らかにしている。
前立腺癌をMRIで検出するための診断精度(AUC)は0.78から0.80に増加した。
さらなる実験では、病気の補間、病態の組み合わせ、および正確な病気の外観制御のための塗布による埋め込み柔軟性が実証された。
トレーニングされた埋め込みはコンパクト(1MB未満)で、プライバシー上の懸念を減らしてデータ共有を容易にする。
関連論文リスト
- Arbitrary Data as Images: Fusion of Patient Data Across Modalities and Irregular Intervals with Vision Transformers [1.194275822303467]
不規則サンプルマルチモーダル計測(ViTiMM)のためのビジョントランス
MIMIC-IVデータセットから6,175人の患者を対象に,不規則標本化マルチモーダル計測(ViTiMM)のビジョントランスフォーマーを用いて,データ前処理とモデリングを簡略化するだけでなく,院内死亡と表現の予測における最先端の手法よりも優れていた。
私たちの研究は、トレーニングの複雑さを(視覚的に)迅速なエンジニアリングに還元し、参入障壁を低くし、トレーニングのためのノーコードソリューションを可能にすることで、マルチモーダルな医療AIの進歩を促すことを願っています。
論文 参考訳(メタデータ) (2025-01-30T09:52:15Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
大規模なデータセットのトレーニングによるスケーリングは、画像生成の品質と忠実度を高め、拡散モデルによる操作を可能にすることが示されている。
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
本研究は,異なる微調整方式と組み合わせた場合,様々なシナリオにおいて顕著な性能向上を示すものである。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Multimodal Foundation Models Exploit Text to Make Medical Image Predictions [3.4230952713864373]
我々は、画像やテキストを含む様々なデータモダリティを、マルチモーダル基礎モデルが統合し、優先順位付けするメカニズムを評価する。
以上の結果から,マルチモーダルAIモデルは医学的診断的推論に有用であるが,テキストの活用によって精度が大きく向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-09T18:48:02Z) - DiffBoost: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model [3.890243179348094]
医療応用のための堅牢で成功したディープラーニングモデルを開発するためには、大規模で大きな変動のある高品質なデータが不可欠である。
本稿では,DiffBoostと呼ばれる医用画像合成のための制御可能な拡散モデルを提案する。
近年の拡散確率モデルを利用して、現実的で多様な合成医用画像データを生成する。
論文 参考訳(メタデータ) (2023-10-19T16:18:02Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - When Accuracy Meets Privacy: Two-Stage Federated Transfer Learning
Framework in Classification of Medical Images on Limited Data: A COVID-19
Case Study [77.34726150561087]
新型コロナウイルスのパンデミックが急速に広がり、世界の医療資源が不足している。
CNNは医療画像の解析に広く利用され、検証されている。
論文 参考訳(メタデータ) (2022-03-24T02:09:41Z) - Self-supervised Learning from 100 Million Medical Images [13.958840691105992]
コントラスト学習とオンライン特徴クラスタリングに基づく,リッチな画像特徴の自己教師付き学習手法を提案する。
我々は,X線撮影,CT,MRI,超音波など,様々なモードの医療画像10万枚を超える大規模なトレーニングデータセットを活用している。
本稿では,X線撮影,CT,MRにおける画像評価の課題に対して,この戦略の多くの利点を強調した。
論文 参考訳(メタデータ) (2022-01-04T18:27:04Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。