論文の概要: RoentGen: Vision-Language Foundation Model for Chest X-ray Generation
- arxiv url: http://arxiv.org/abs/2211.12737v1
- Date: Wed, 23 Nov 2022 06:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:27:51.521486
- Title: RoentGen: Vision-Language Foundation Model for Chest X-ray Generation
- Title(参考訳): RoentGen:胸部X線生成のためのビジョン言語基礎モデル
- Authors: Pierre Chambon, Christian Bluethgen, Jean-Benoit Delbrouck, Rogier Van
der Sluijs, Ma{\l}gorzata Po{\l}acin, Juan Manuel Zambrano Chaves, Tanishq
Mathew Abraham, Shivanshu Purohit, Curtis P. Langlotz, Akshay Chaudhari
- Abstract要約: 我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。
テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。
得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
- 参考スコア(独自算出の注目度): 7.618389245539657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal models trained on large natural image-text pair datasets have
exhibited astounding abilities in generating high-quality images. Medical
imaging data is fundamentally different to natural images, and the language
used to succinctly capture relevant details in medical data uses a different,
narrow but semantically rich, domain-specific vocabulary. Not surprisingly,
multi-modal models trained on natural image-text pairs do not tend to
generalize well to the medical domain. Developing generative imaging models
faithfully representing medical concepts while providing compositional
diversity could mitigate the existing paucity of high-quality, annotated
medical imaging datasets. In this work, we develop a strategy to overcome the
large natural-medical distributional shift by adapting a pre-trained latent
diffusion model on a corpus of publicly available chest x-rays (CXR) and their
corresponding radiology (text) reports. We investigate the model's ability to
generate high-fidelity, diverse synthetic CXR conditioned on text prompts. We
assess the model outputs quantitatively using image quality metrics, and
evaluate image quality and text-image alignment by human domain experts. We
present evidence that the resulting model (RoentGen) is able to create visually
convincing, diverse synthetic CXR images, and that the output can be controlled
to a new extent by using free-form text prompts including radiology-specific
language. Fine-tuning this model on a fixed training set and using it as a data
augmentation method, we measure a 5% improvement of a classifier trained
jointly on synthetic and real images, and a 3% improvement when trained on a
larger but purely synthetic training set. Finally, we observe that this
fine-tuning distills in-domain knowledge in the text-encoder and can improve
its representation capabilities of certain diseases like pneumothorax by 25%.
- Abstract(参考訳): 大規模な自然画像とテキストのペアデータセットでトレーニングされたマルチモーダルモデルは、高品質な画像を生成する驚くべき能力を示している。
医学画像データは自然画像と根本的に異なり、医学データ内の関連する詳細を簡潔に捉えるために使用される言語は、異なる、狭く、意味的にリッチなドメイン固有語彙を使用する。
当然のことながら、自然画像とテキストのペアで訓練されたマルチモーダルモデルは、医学領域にうまく一般化しない傾向がある。
合成多様性を提供しながら医療概念を忠実に表現する生成イメージングモデルを開発することで、高品質な注釈付医用画像データセットの既存の質を軽減できる。
本研究では,胸部X線(CXR)とそれに対応する放射線学(テキスト)レポートのコーパスに,事前訓練した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。
テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。
画像品質指標を用いて定量的にモデル出力を評価し,人間の領域の専門家による画像品質とテキスト画像のアライメントを評価する。
得られたモデル(ローエントゲン)が視覚的に説得力のある多彩な合成cxr画像を作成することができ、放射線特異的言語を含むフリーフォームテキストプロンプトを用いて出力を新たな範囲で制御できることを示す。
このモデルを固定トレーニングセットに微調整し,データ拡張法として用いることで,合成画像と実画像で共同で訓練した分類器の5%改善と,大規模で純粋に合成されたトレーニングセットでトレーニングした場合の3%改善を計測した。
最後に, この微調整は, テキストエンコーダのドメイン内知識を抽出し, 気胸などの特定の疾患の表現能力を25%向上させる。
関連論文リスト
- Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
大規模なデータセットのトレーニングによるスケーリングは、画像生成の品質と忠実度を高め、拡散モデルによる操作を可能にすることが示されている。
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
本研究は,異なる微調整方式と組み合わせた場合,様々なシナリオにおいて顕著な性能向上を示すものである。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - DAug: Diffusion-based Channel Augmentation for Radiology Image Retrieval and Classification [24.68697717585541]
生成モデルの出力を用いて知覚モデルの性能を向上させる携帯型手法を提案する。
具体的には、放射線画像を複数のチャネルに拡張し、病気が進行する傾向のある地域のヒートマップとして追加する。
本手法は, 生成モデルが正常画像と異常画像の分布を学習するという事実に動機付けられ, その知識は画像理解タスクの補完となる。
論文 参考訳(メタデータ) (2024-12-06T07:43:28Z) - A Domain Translation Framework with an Adversarial Denoising Diffusion
Model to Generate Synthetic Datasets of Echocardiography Images [0.5999777817331317]
臨床研究に好適な心エコー画像を作成するための枠組みを提案する。
いくつかのドメイン翻訳操作において、このような生成モデルによって高品質な画像サンプルを合成できることが確認された。
論文 参考訳(メタデータ) (2024-03-07T15:58:03Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - DiffBoost: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model [3.890243179348094]
医療応用のための堅牢で成功したディープラーニングモデルを開発するためには、大規模で大きな変動のある高品質なデータが不可欠である。
本稿では,DiffBoostと呼ばれる医用画像合成のための制御可能な拡散モデルを提案する。
近年の拡散確率モデルを利用して、現実的で多様な合成医用画像データを生成する。
論文 参考訳(メタデータ) (2023-10-19T16:18:02Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Trade-offs in Fine-tuned Diffusion Models Between Accuracy and
Interpretability [5.865936619867771]
生成拡散モデルにおける従来の計測値とモデル解釈可能性による画像の忠実度との間に連続的なトレードオフが生じる。
我々は、真に解釈可能な生成モデルを開発するための設計原則のセットを提示する。
論文 参考訳(メタデータ) (2023-03-31T09:11:26Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。