Fugu-MT 論文翻訳(概要): Medical diffusion on a budget: textual inversion for medical image generation

論文の概要: Medical diffusion on a budget: textual inversion for medical image generation

arxiv url: http://arxiv.org/abs/2303.13430v1
Date: Thu, 23 Mar 2023 16:50:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 13:22:43.978533
Title: Medical diffusion on a budget: textual inversion for medical image generation
Title（参考訳）: 予算上の医学拡散:医療画像生成のためのテキストインバージョン
Authors: Bram de Wilde, Anindo Saha, Richard P.G. ten Broek, Henkjan Huisman
Abstract要約: テキスト・画像生成のための拡散モデルは非常に人気がある。それらをスクラッチからトレーニングするには、大きなデータセットと重要な計算リソースにアクセスする必要がある。本研究は,テキストインバージョンによるテキスト埋め込みをトレーニングすることにより,事前学習した安定拡散モデルが様々な医用画像モダリティに適応できることを実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion-based models for text-to-image generation have gained immense popularity due to recent advancements in efficiency, accessibility, and quality. Although it is becoming increasingly feasible to perform inference with these systems using consumer-grade GPUs, training them from scratch still requires access to large datasets and significant computational resources. In the case of medical image generation, the availability of large, publicly accessible datasets that include text reports is limited due to legal and ethical concerns. While training a diffusion model on a private dataset may address this issue, it is not always feasible for institutions lacking the necessary computational resources. This work demonstrates that pre-trained Stable Diffusion models, originally trained on natural images, can be adapted to various medical imaging modalities by training text embeddings with textual inversion. In this study, we conducted experiments using medical datasets comprising only 100 samples from three medical modalities. Embeddings were trained in a matter of hours, while still retaining diagnostic relevance in image generation. Experiments were designed to achieve several objectives. Firstly, we fine-tuned the training and inference processes of textual inversion, revealing that larger embeddings and more examples are required. Secondly, we validated our approach by demonstrating a 2\% increase in the diagnostic accuracy (AUC) for detecting prostate cancer on MRI, which is a challenging multi-modal imaging modality, from 0.78 to 0.80. Thirdly, we performed simulations by interpolating between healthy and diseased states, combining multiple pathologies, and inpainting to show embedding flexibility and control of disease appearance. Finally, the embeddings trained in this study are small (less than 1 MB), which facilitates easy sharing of medical data with reduced privacy concerns.
Abstract（参考訳）: 近年の効率性,アクセシビリティ,品質の進歩により,テキストから画像への拡散モデルが大いに人気を集めている。コンシューマグレードのgpuを使用してこれらのシステムで推論を行うことはますます可能になっていますが、スクラッチからトレーニングするには大きなデータセットと重要な計算リソースが必要になるのです。医療画像生成の場合、法的および倫理的な懸念から、テキストレポートを含む大規模で公開可能なデータセットの可用性は限られている。プライベートデータセット上で拡散モデルをトレーニングすることはこの問題に対処するかもしれないが、必要な計算資源を欠いている機関にとって必ずしも実現可能とは限らない。この研究は、もともと自然画像に基づいて訓練された訓練済み安定拡散モデルが、テキストインバージョンによるテキスト埋め込みをトレーニングすることにより、様々な医療画像に適応できることを実証する。そこで本研究では、3つの医学的モダリティから100個のサンプルからなる医療データセットを用いて実験を行った。埋め込みは数時間で訓練され、画像生成における診断関連性は維持された。実験はいくつかの目的を達成するために設計された。まず、テキスト反転のトレーニングと推論プロセスを微調整し、より大きな埋め込みとより多くの例が必要であることを明らかにした。第2に,mri上の前立腺癌検出のための診断精度(auc)を0.78から0.80に2-%向上させることで,本手法の有効性を確認した。第3に, 健康状態と疾患状態の補間, 複数の病態の複合化, エンベディングフレキシビリティ, 疾患外観の制御などによるシミュレーションを行った。最後に、この研究で訓練された埋め込みは(1MB未満)小さく、プライバシーの懸念を減らした医療データの共有を容易にする。

関連論文リスト

Arbitrary Data as Images: Fusion of Patient Data Across Modalities and Irregular Intervals with Vision Transformers [1.194275822303467]
不規則サンプルマルチモーダル計測(ViTiMM)のためのビジョントランス MIMIC-IVデータセットから6,175人の患者を対象に,不規則標本化マルチモーダル計測(ViTiMM)のビジョントランスフォーマーを用いて,データ前処理とモデリングを簡略化するだけでなく,院内死亡と表現の予測における最先端の手法よりも優れていた。私たちの研究は、トレーニングの複雑さを(視覚的に)迅速なエンジニアリングに還元し、参入障壁を低くし、トレーニングのためのノーコードソリューションを可能にすることで、マルチモーダルな医療AIの進歩を促すことを願っています。
論文参考訳（メタデータ） (2025-01-30T09:52:15Z)
Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文参考訳（メタデータ） (2024-12-30T01:59:34Z)
Multi-Conditioned Denoising Diffusion Probabilistic Model (mDDPM) for Medical Image Synthesis [22.0080610434872]
アノテーションを用いた合成画像の制御生成フレームワークを提案する。本手法は, 解剖学的に忠実に表現できる, 注記式肺CT画像を作成することができることを示す。本実験は, この自然の制御された生成フレームワークが, ほぼすべての最先端画像生成モデルを超えることを実証した。
論文参考訳（メタデータ） (2024-09-07T01:19:02Z)
Radiology Report Generation Using Transformers Conditioned with Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文参考訳（メタデータ） (2023-11-18T14:52:26Z)
Multimodal Foundation Models Exploit Text to Make Medical Image Predictions [3.4230952713864373]
我々は、画像やテキストを含む様々なデータモダリティを、マルチモーダル基礎モデルが統合し、優先順位付けするメカニズムを評価する。以上の結果から,マルチモーダルAIモデルは医学的診断的推論に有用であるが,テキストの活用によって精度が大きく向上することが示唆された。
論文参考訳（メタデータ） (2023-11-09T18:48:02Z)
EMIT-Diff: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model [4.057796755073023]
EMIT-Diffと呼ばれる医用画像合成のための制御可能な拡散モデルを開発した。近年の拡散確率モデルを利用して、現実的で多様な合成医用画像データを生成する。提案手法では, 合成試料が医療上の制約に適合することを確実にする。
論文参考訳（メタデータ） (2023-10-19T16:18:02Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
When Accuracy Meets Privacy: Two-Stage Federated Transfer Learning Framework in Classification of Medical Images on Limited Data: A COVID-19 Case Study [77.34726150561087]
新型コロナウイルスのパンデミックが急速に広がり、世界の医療資源が不足している。 CNNは医療画像の解析に広く利用され、検証されている。
論文参考訳（メタデータ） (2022-03-24T02:09:41Z)
MMLN: Leveraging Domain Knowledge for Multimodal Diagnosis [10.133715767542386]
肺疾患診断のための知識駆動型およびデータ駆動型フレームワークを提案する。本研究は, 臨床医学ガイドラインに従って診断規則を定式化し, テキストデータから規則の重みを学習する。テキストと画像データからなるマルチモーダル融合は、肺疾患の限界確率を推定するために設計されている。
論文参考訳（メタデータ） (2022-02-09T04:12:30Z)
Self-supervised Learning from 100 Million Medical Images [13.958840691105992]
コントラスト学習とオンライン特徴クラスタリングに基づく,リッチな画像特徴の自己教師付き学習手法を提案する。我々は,X線撮影,CT,MRI,超音波など,様々なモードの医療画像10万枚を超える大規模なトレーニングデータセットを活用している。本稿では,X線撮影,CT,MRにおける画像評価の課題に対して,この戦略の多くの利点を強調した。
論文参考訳（メタデータ） (2022-01-04T18:27:04Z)
Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。本稿では,生成逆U-Netという新しい生成手法を提案する。当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文参考訳（メタデータ） (2021-01-12T23:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。