Fugu-MT 論文翻訳(概要): Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains

論文の概要: Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains

arxiv url: http://arxiv.org/abs/2210.04133v1
Date: Sun, 9 Oct 2022 01:43:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-11 14:04:41.511897
Title: Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains
Title（参考訳）: 医用画像領域への事前学習型視覚言語基礎モデルの適用
Authors: Pierre Chambon, Christian Bluethgen, Curtis P. Langlotz, Akshay Chaudhari
Abstract要約: 臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
参考スコア（独自算出の注目度）: 3.8137985834223502
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal foundation models are typically trained on millions of pairs of natural images and text captions, frequently obtained through web-crawling approaches. Although such models depict excellent generative capabilities, they do not typically generalize well to specific domains such as medical images that have fundamentally shifted distributions compared to natural images. Building generative models for medical images that faithfully depict clinical context may help alleviate the paucity of healthcare datasets. Thus, in this study, we seek to research and expand the representational capabilities of large pretrained foundation models to medical concepts, specifically for leveraging the Stable Diffusion model to generate domain specific images found in medical imaging. We explore the sub-components of the Stable Diffusion pipeline (the variational autoencoder, the U-Net and the text-encoder) to fine-tune the model to generate medical images. We benchmark the efficacy of these efforts using quantitative image quality metrics and qualitative radiologist-driven evaluations that accurately represent the clinical content of conditional text prompts. Our best-performing model improves upon the stable diffusion baseline and can be conditioned to insert a realistic-looking abnormality on a synthetic radiology image, while maintaining a 95% accuracy on a classifier trained to detect the abnormality.
Abstract（参考訳）: マルチモーダル基礎モデルは、通常、何百万もの自然画像とテキストキャプションに基づいて訓練され、しばしばwebクローリングアプローチによって得られる。このようなモデルは優れた生成能力を示すが、自然画像に比べて分布が根本的に変化した医療画像のような特定の領域によく当てはまらない。臨床コンテキストを忠実に描写した医療画像の生成モデルの構築は、医療データセットのポーシティを緩和するのに役立つかもしれない。そこで本研究では,医用画像に現れる領域固有画像の生成に安定拡散モデルを活用するために,大規模な事前学習基礎モデルの医療概念への表現能力を研究・拡張することを目的とする。安定拡散パイプライン(変分オートエンコーダ、U-Net、テキストエンコーダ)のサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。条件付きテキストプロンプトの臨床内容を正確に表現する定量的画像品質指標と定性放射線科医主導評価を用いて,これらの取り組みの有効性を検証した。本モデルでは, 安定拡散ベースラインを改良し, 合成ラジオグラフィ画像に現実的な異常を挿入し, 95%の精度を維持しながら, 異常を検出できるように訓練した分類器の精度を維持した。

関連論文リスト

Distribution-Based Masked Medical Vision-Language Model Using Structured Reports [9.306835492101413]
医用画像テキスト事前訓練は,医療用画像と臨床関連テキストの整合を図り,様々な下流作業におけるモデル性能を向上させることを目的としている。本研究は,医用画像解析における一般化能力を高める不確実性を考慮した医用画像テキスト事前学習モデルを提案する。
論文参考訳（メタデータ） (2025-07-29T13:31:24Z)
Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文参考訳（メタデータ） (2025-04-20T01:54:18Z)
PRISM: High-Resolution & Precise Counterfactual Medical Image Generation using Language-guided Stable Diffusion [5.504796147401483]
医用画像のための信頼性と一般化可能な深層学習システムの開発は、素早い相関関係、データ不均衡、データセットにおける限られたテキストアノテーションなどにより、大きな障害に直面している。 PRISMは,基礎モデルを利用して高分解能・言語誘導型医用画像対物を生成するフレームワークである。
論文参考訳（メタデータ） (2025-02-28T21:32:08Z)
Trustworthy image-to-image translation: evaluating uncertainty calibration in unpaired training scenarios [0.0]
マンモグラフィスクリーニングは乳がんの検出に有効な方法であり、早期診断を容易にする。ディープニューラルネットワークはいくつかの研究で有効であることが示されているが、その傾向は一般化と誤診のリスクをかなり残している。汎用性を向上させるために、未ペア型ニューラルスタイル転送モデルに基づくデータ拡張スキームが提案されている。 3つのオープンアクセスマンモグラフィーデータセットと1つの非医療画像データセットから解析した画像パッチを用いて、それらの性能を評価する。
論文参考訳（メタデータ） (2025-01-29T11:09:50Z)
Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文参考訳（メタデータ） (2024-12-30T01:59:34Z)
Multi-Conditioned Denoising Diffusion Probabilistic Model (mDDPM) for Medical Image Synthesis [22.0080610434872]
アノテーションを用いた合成画像の制御生成フレームワークを提案する。本手法は, 解剖学的に忠実に表現できる, 注記式肺CT画像を作成することができることを示す。本実験は, この自然の制御された生成フレームワークが, ほぼすべての最先端画像生成モデルを超えることを実証した。
論文参考訳（メタデータ） (2024-09-07T01:19:02Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-03-19T09:28:19Z)
VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics [0.0]
医用画像における視覚的属性は、医用画像の診断関連成分を明確にすることを目指している。本稿では、潜在拡散モデルとドメイン固有大言語モデルを組み合わせた新しい生成的視覚属性手法を提案する。結果として生じるシステムは、ゼロショット局所化疾患誘導を含む様々な潜在能力を示す。
論文参考訳（メタデータ） (2024-01-02T19:51:49Z)
On the Out of Distribution Robustness of Foundation Models in Medical Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文参考訳（メタデータ） (2023-11-18T14:52:10Z)
Trade-offs in Fine-tuned Diffusion Models Between Accuracy and Interpretability [5.865936619867771]
生成拡散モデルにおける従来の計測値とモデル解釈可能性による画像の忠実度との間に連続的なトレードオフが生じる。我々は、真に解釈可能な生成モデルを開発するための設計原則のセットを提示する。
論文参考訳（メタデータ） (2023-03-31T09:11:26Z)
RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文参考訳（メタデータ） (2022-11-23T06:58:09Z)
Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。本稿では,生成逆U-Netという新しい生成手法を提案する。当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文参考訳（メタデータ） (2021-01-12T23:02:26Z)
Domain Generalization for Medical Imaging Classification with Linear-Dependency Regularization [59.5104563755095]
本稿では,医用画像分類分野におけるディープニューラルネットワークの一般化能力向上のための,シンプルだが効果的なアプローチを提案する。医用画像の領域変数がある程度コンパクトであることに感銘を受けて,変分符号化による代表的特徴空間の学習を提案する。
論文参考訳（メタデータ） (2020-09-27T12:30:30Z)
Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文参考訳（メタデータ） (2020-05-15T06:57:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。