Fugu-MT 論文翻訳(概要): RoentGen: Vision-Language Foundation Model for Chest X-ray Generation

論文の概要: RoentGen: Vision-Language Foundation Model for Chest X-ray Generation

arxiv url: http://arxiv.org/abs/2211.12737v1
Date: Wed, 23 Nov 2022 06:58:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-24 13:27:51.521486
Title: RoentGen: Vision-Language Foundation Model for Chest X-ray Generation
Title（参考訳）: RoentGen:胸部X線生成のためのビジョン言語基礎モデル
Authors: Pierre Chambon, Christian Bluethgen, Jean-Benoit Delbrouck, Rogier Van der Sluijs, Ma{\l}gorzata Po{\l}acin, Juan Manuel Zambrano Chaves, Tanishq Mathew Abraham, Shivanshu Purohit, Curtis P. Langlotz, Akshay Chaudhari
Abstract要約: 我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
参考スコア（独自算出の注目度）: 7.618389245539657
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal models trained on large natural image-text pair datasets have exhibited astounding abilities in generating high-quality images. Medical imaging data is fundamentally different to natural images, and the language used to succinctly capture relevant details in medical data uses a different, narrow but semantically rich, domain-specific vocabulary. Not surprisingly, multi-modal models trained on natural image-text pairs do not tend to generalize well to the medical domain. Developing generative imaging models faithfully representing medical concepts while providing compositional diversity could mitigate the existing paucity of high-quality, annotated medical imaging datasets. In this work, we develop a strategy to overcome the large natural-medical distributional shift by adapting a pre-trained latent diffusion model on a corpus of publicly available chest x-rays (CXR) and their corresponding radiology (text) reports. We investigate the model's ability to generate high-fidelity, diverse synthetic CXR conditioned on text prompts. We assess the model outputs quantitatively using image quality metrics, and evaluate image quality and text-image alignment by human domain experts. We present evidence that the resulting model (RoentGen) is able to create visually convincing, diverse synthetic CXR images, and that the output can be controlled to a new extent by using free-form text prompts including radiology-specific language. Fine-tuning this model on a fixed training set and using it as a data augmentation method, we measure a 5% improvement of a classifier trained jointly on synthetic and real images, and a 3% improvement when trained on a larger but purely synthetic training set. Finally, we observe that this fine-tuning distills in-domain knowledge in the text-encoder and can improve its representation capabilities of certain diseases like pneumothorax by 25%.
Abstract（参考訳）: 大規模な自然画像とテキストのペアデータセットでトレーニングされたマルチモーダルモデルは、高品質な画像を生成する驚くべき能力を示している。医学画像データは自然画像と根本的に異なり、医学データ内の関連する詳細を簡潔に捉えるために使用される言語は、異なる、狭く、意味的にリッチなドメイン固有語彙を使用する。当然のことながら、自然画像とテキストのペアで訓練されたマルチモーダルモデルは、医学領域にうまく一般化しない傾向がある。合成多様性を提供しながら医療概念を忠実に表現する生成イメージングモデルを開発することで、高品質な注釈付医用画像データセットの既存の質を軽減できる。本研究では,胸部X線(CXR)とそれに対応する放射線学(テキスト)レポートのコーパスに,事前訓練した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。画像品質指標を用いて定量的にモデル出力を評価し,人間の領域の専門家による画像品質とテキスト画像のアライメントを評価する。得られたモデル(ローエントゲン)が視覚的に説得力のある多彩な合成cxr画像を作成することができ、放射線特異的言語を含むフリーフォームテキストプロンプトを用いて出力を新たな範囲で制御できることを示す。このモデルを固定トレーニングセットに微調整し,データ拡張法として用いることで,合成画像と実画像で共同で訓練した分類器の5%改善と,大規模で純粋に合成されたトレーニングセットでトレーニングした場合の3%改善を計測した。最後に, この微調整は, テキストエンコーダのドメイン内知識を抽出し, 気胸などの特定の疾患の表現能力を25%向上させる。

関連論文リスト

Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文参考訳（メタデータ） (2025-04-20T01:54:18Z)
Prompting Medical Vision-Language Models to Mitigate Diagnosis Bias by Generating Realistic Dermoscopic Images [0.31077024712075796]
皮膚科拡散変換器(DermDiT) 本稿では,視覚言語モデルとマルチモーダルテキスト画像学習を用いて生成したテキストプロンプトを利用して,新たな皮膚画像を生成する,新しい生成AIベースのフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-02T15:44:12Z)
Language-Guided Trajectory Traversal in Disentangled Stable Diffusion Latent Space for Factorized Medical Image Generation [0.8397730500554048]
医用画像データセットに微調整を施した事前学習型視覚言語基礎モデルの能力について, 潜時無拘束化を行うための第1報を提示する。言語誘導の安定拡散は、本質的に画像生成のキー属性を分解することを学ぶことを実証する。生成モデルの潜在空間軌跡を識別し,分離し,操作するための枠組みを考案し,医用画像合成の精密制御を容易にする。
論文参考訳（メタデータ） (2025-03-30T23:15:52Z)
Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文参考訳（メタデータ） (2024-12-30T01:59:34Z)
DAug: Diffusion-based Channel Augmentation for Radiology Image Retrieval and Classification [24.68697717585541]
生成モデルの出力を用いて知覚モデルの性能を向上させる携帯型手法を提案する。具体的には、放射線画像を複数のチャネルに拡張し、病気が進行する傾向のある地域のヒートマップとして追加する。本手法は, 生成モデルが正常画像と異常画像の分布を学習するという事実に動機付けられ, その知識は画像理解タスクの補完となる。
論文参考訳（メタデータ） (2024-12-06T07:43:28Z)
Multi-Conditioned Denoising Diffusion Probabilistic Model (mDDPM) for Medical Image Synthesis [22.0080610434872]
アノテーションを用いた合成画像の制御生成フレームワークを提案する。本手法は, 解剖学的に忠実に表現できる, 注記式肺CT画像を作成することができることを示す。本実験は, この自然の制御された生成フレームワークが, ほぼすべての最先端画像生成モデルを超えることを実証した。
論文参考訳（メタデータ） (2024-09-07T01:19:02Z)
A Domain Translation Framework with an Adversarial Denoising Diffusion Model to Generate Synthetic Datasets of Echocardiography Images [0.5999777817331317]
臨床研究に好適な心エコー画像を作成するための枠組みを提案する。いくつかのドメイン翻訳操作において、このような生成モデルによって高品質な画像サンプルを合成できることが確認された。
論文参考訳（メタデータ） (2024-03-07T15:58:03Z)
Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文参考訳（メタデータ） (2023-12-12T14:45:45Z)
Radiology Report Generation Using Transformers Conditioned with Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文参考訳（メタデータ） (2023-11-18T14:52:26Z)
Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文参考訳（メタデータ） (2023-11-18T14:37:53Z)
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。 DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T05:03:48Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
Trade-offs in Fine-tuned Diffusion Models Between Accuracy and Interpretability [5.865936619867771]
生成拡散モデルにおける従来の計測値とモデル解釈可能性による画像の忠実度との間に連続的なトレードオフが生じる。我々は、真に解釈可能な生成モデルを開発するための設計原則のセットを提示する。
論文参考訳（メタデータ） (2023-03-31T09:11:26Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文参考訳（メタデータ） (2022-10-09T01:43:08Z)
Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。本稿では,生成逆U-Netという新しい生成手法を提案する。当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文参考訳（メタデータ） (2021-01-12T23:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。