論文の概要: Medical diffusion on a budget: textual inversion for medical image
generation
- arxiv url: http://arxiv.org/abs/2303.13430v1
- Date: Thu, 23 Mar 2023 16:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 13:22:43.978533
- Title: Medical diffusion on a budget: textual inversion for medical image
generation
- Title(参考訳): 予算上の医学拡散:医療画像生成のためのテキストインバージョン
- Authors: Bram de Wilde, Anindo Saha, Richard P.G. ten Broek, Henkjan Huisman
- Abstract要約: テキスト・画像生成のための拡散モデルは非常に人気がある。
それらをスクラッチからトレーニングするには、大きなデータセットと重要な計算リソースにアクセスする必要がある。
本研究は,テキストインバージョンによるテキスト埋め込みをトレーニングすることにより,事前学習した安定拡散モデルが様々な医用画像モダリティに適応できることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based models for text-to-image generation have gained immense
popularity due to recent advancements in efficiency, accessibility, and
quality. Although it is becoming increasingly feasible to perform inference
with these systems using consumer-grade GPUs, training them from scratch still
requires access to large datasets and significant computational resources. In
the case of medical image generation, the availability of large, publicly
accessible datasets that include text reports is limited due to legal and
ethical concerns. While training a diffusion model on a private dataset may
address this issue, it is not always feasible for institutions lacking the
necessary computational resources. This work demonstrates that pre-trained
Stable Diffusion models, originally trained on natural images, can be adapted
to various medical imaging modalities by training text embeddings with textual
inversion. In this study, we conducted experiments using medical datasets
comprising only 100 samples from three medical modalities. Embeddings were
trained in a matter of hours, while still retaining diagnostic relevance in
image generation. Experiments were designed to achieve several objectives.
Firstly, we fine-tuned the training and inference processes of textual
inversion, revealing that larger embeddings and more examples are required.
Secondly, we validated our approach by demonstrating a 2\% increase in the
diagnostic accuracy (AUC) for detecting prostate cancer on MRI, which is a
challenging multi-modal imaging modality, from 0.78 to 0.80. Thirdly, we
performed simulations by interpolating between healthy and diseased states,
combining multiple pathologies, and inpainting to show embedding flexibility
and control of disease appearance. Finally, the embeddings trained in this
study are small (less than 1 MB), which facilitates easy sharing of medical
data with reduced privacy concerns.
- Abstract(参考訳): 近年の効率性,アクセシビリティ,品質の進歩により,テキストから画像への拡散モデルが大いに人気を集めている。
コンシューマグレードのgpuを使用してこれらのシステムで推論を行うことはますます可能になっていますが、スクラッチからトレーニングするには大きなデータセットと重要な計算リソースが必要になるのです。
医療画像生成の場合、法的および倫理的な懸念から、テキストレポートを含む大規模で公開可能なデータセットの可用性は限られている。
プライベートデータセット上で拡散モデルをトレーニングすることはこの問題に対処するかもしれないが、必要な計算資源を欠いている機関にとって必ずしも実現可能とは限らない。
この研究は、もともと自然画像に基づいて訓練された訓練済み安定拡散モデルが、テキストインバージョンによるテキスト埋め込みをトレーニングすることにより、様々な医療画像に適応できることを実証する。
そこで本研究では、3つの医学的モダリティから100個のサンプルからなる医療データセットを用いて実験を行った。
埋め込みは数時間で訓練され、画像生成における診断関連性は維持された。
実験はいくつかの目的を達成するために設計された。
まず、テキスト反転のトレーニングと推論プロセスを微調整し、より大きな埋め込みとより多くの例が必要であることを明らかにした。
第2に,mri上の前立腺癌検出のための診断精度(auc)を0.78から0.80に2-%向上させることで,本手法の有効性を確認した。
第3に, 健康状態と疾患状態の補間, 複数の病態の複合化, エンベディングフレキシビリティ, 疾患外観の制御などによるシミュレーションを行った。
最後に、この研究で訓練された埋め込みは(1MB未満)小さく、プライバシーの懸念を減らした医療データの共有を容易にする。
関連論文リスト
- Training Small Multimodal Models to Bridge Biomedical Competency Gap: A
Case Study in Radiology Imaging [114.43429928419755]
バイオメディカル・コンピテンシー・ギャップを橋渡しするオープンソース小型マルチモーダル・モデル(SMM)の訓練について検討する。
LLaVA-Radは高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Exploring Transfer Learning in Medical Image Segmentation using
Vision-Language Models [0.9324036842528547]
本稿では,VLSMの2次元医用画像への変換学習に関する最初のベンチマーク研究について述べる。
以上の結果から,VLSMは自然画像とテキストのペアで訓練され,ゼロショット設定で医療領域に合理的に移行することが示唆された。
しかし、微調整中の言語プロンプトのさらなる利点は限られているかもしれない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Understanding the Tricks of Deep Learning in Medical Image Segmentation:
Challenges and Future Directions [66.40971096248946]
本稿では,モデル実装の異なるフェーズに対して,MedISegの一連のトリックを収集する。
本稿では,これらの手法の有効性を一貫したベースライン上で実験的に検討する。
私たちはまた、それぞれのコンポーネントがプラグインとプレイの利点を持つ強力なMedISegリポジトリをオープンソースにしました。
論文 参考訳(メタデータ) (2022-09-21T12:30:05Z) - Metadata-enhanced contrastive learning from retinal optical coherence
tomography images [9.618704558885069]
従来のコントラストフレームワークを新しいメタデータ強化戦略で拡張する。
本手法では,画像間のコントラスト関係の真のセットを近似するために,患者メタデータを広く活用する。
提案手法は、6つの画像レベル下流タスクのうち5つにおいて、標準コントラスト法と網膜画像基盤モデルの両方に優れる。
論文 参考訳(メタデータ) (2022-08-04T08:53:15Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z) - Convolutional-LSTM for Multi-Image to Single Output Medical Prediction [55.41644538483948]
発展途上国の一般的なシナリオは、複数の理由からボリュームメタデータが失われることである。
ヒトの診断過程を模倣したマルチイメージから単一診断モデルを得ることが可能である。
論文 参考訳(メタデータ) (2020-10-20T04:30:09Z) - Discriminative Cross-Modal Data Augmentation for Medical Imaging
Applications [24.06277026586584]
深層学習法は医用画像解析において大きな成功を収めており、訓練には多くの医用画像が必要である。
データプライバシの懸念と医療アノテータの有効性のため、モデルトレーニングのためにラベル付き医療画像を得るのは非常に困難であることが多い。
本稿では,画像のソースモダリティを目標モダリティに変換する画像対画像変換モデルを提案する。
論文 参考訳(メタデータ) (2020-10-07T15:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。