論文の概要: EMIXER: End-to-end Multimodal X-ray Generation via Self-supervision
- arxiv url: http://arxiv.org/abs/2007.05597v2
- Date: Fri, 15 Jan 2021 19:07:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 21:50:22.634058
- Title: EMIXER: End-to-end Multimodal X-ray Generation via Self-supervision
- Title(参考訳): EMIXER:セルフスーパービジョンによるエンドツーエンドマルチモーダルX線生成
- Authors: Siddharth Biswal, Peiye Zhuang, Ayis Pyrros, Nasir Siddiqui, Sanmi
Koyejo, Jimeng Sun
- Abstract要約: 我々は,X線画像と対応する自由テキストレポートを共同で合成する,エンド・ツー・エンドのMultimodal X線生成モデル(EMIXER)を提案する。
EMIXERは、1)ラベルに基づいて画像を生成すること、2)隠された埋め込みに画像をエンコードすること、3)画像埋め込みから階層的デコーダを介して対応するテキストを生成すること、、4)画像と対応するテキストの両方を評価する共同識別器により、条件付き生成対向モデルである。
EMIXER生成した合成データセットは、X線画像分類、レポート生成モデルを強化して5。
- 参考スコア(独自算出の注目度): 39.07263052525579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep generative models have enabled the automated synthesis of high-quality
data for diverse applications. However, the most effective generative models
are specialized to data from a single domain (e.g., images or text). Real-world
applications such as healthcare require multi-modal data from multiple domains
(e.g., both images and corresponding text), which are difficult to acquire due
to limited availability and privacy concerns and are much harder to synthesize.
To tackle this joint synthesis challenge, we propose an End-to-end MultImodal
X-ray genERative model (EMIXER) for jointly synthesizing x-ray images and
corresponding free-text reports, all conditional on diagnosis labels. EMIXER is
an conditional generative adversarial model by 1) generating an image based on
a label, 2) encoding the image to a hidden embedding, 3) producing the
corresponding text via a hierarchical decoder from the image embedding, and 4)
a joint discriminator for assessing both the image and the corresponding text.
EMIXER also enables self-supervision to leverage vast amount of unlabeled data.
Extensive experiments with real X-ray reports data illustrate how data
augmentation using synthesized multimodal samples can improve the performance
of a variety of supervised tasks including COVID-19 X-ray classification with
very limited samples. The quality of generated images and reports are also
confirmed by radiologists. We quantitatively show that EMIXER generated
synthetic datasets can augment X-ray image classification, report generation
models to achieve 5.94% and 6.9% improvement on models trained only on real
data samples. Taken together, our results highlight the promise of state of
generative models to advance clinical machine learning.
- Abstract(参考訳): 深層生成モデルにより、多様なアプリケーションのための高品質なデータの自動合成が可能となった。
しかし、最も効果的な生成モデルは単一のドメイン(画像やテキストなど)のデータに特化している。
ヘルスケアのような現実世界のアプリケーションは、複数のドメイン(画像と対応するテキストの両方)からのマルチモーダルデータを必要とする。
この共同合成課題に取り組むために,X線画像とそれに対応する自由テキストレポートを共同合成するエンド・ツー・エンドのMultImodal X線生成モデル(EMIXER)を提案する。
EMIXERは条件付き生成敵モデルである
1)ラベルに基づいて画像を生成する。
2) 隠された埋め込みに画像をエンコードすること。
3)画像埋め込みから階層デコーダを介して対応するテキストを生成し、
4)画像と対応するテキストの両方を評価する共同識別装置。
EMIXERはまた、大量のラベルのないデータを活用するセルフスーパービジョンを可能にする。
実際のX線レポートデータを用いた大規模な実験は、合成されたマルチモーダルサンプルによるデータ拡張が、非常に限られたサンプルを用いた新型コロナウイルスのX線分類を含む様々な教師付きタスクのパフォーマンスを向上することを示す。
生成画像と報告の質は放射線技師によっても確認されている。
我々は、EMIXER生成した合成データセットがX線画像分類、レポート生成モデルを強化し、実際のデータサンプルのみに基づいてトレーニングされたモデルに対して5.94%および6.9%の改善を達成できることを定量的に示す。
この結果から, 臨床機械学習の進歩に向けた生成モデルの現状が示唆された。
関連論文リスト
- A Domain Translation Framework with an Adversarial Denoising Diffusion
Model to Generate Synthetic Datasets of Echocardiography Images [0.5999777817331317]
臨床研究に好適な心エコー画像を作成するための枠組みを提案する。
いくつかのドメイン翻訳操作において、このような生成モデルによって高品質な画像サンプルを合成できることが確認された。
論文 参考訳(メタデータ) (2024-03-07T15:58:03Z) - DDPM based X-ray Image Synthesizer [0.0]
本稿では, 拡散確率モデル(DDPM)とUNetアーキテクチャを組み合わせたX線画像合成手法を提案する。
本手法では,Kaggleから得られた3000以上の肺炎X線画像を用いて訓練を行った。
その結果, 平均二乗誤差(MSE)が低い実写画像の生成に成功し, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-01-03T04:35:58Z) - EMIT-Diff: Enhancing Medical Image Segmentation via Text-Guided
Diffusion Model [4.057796755073023]
EMIT-Diffと呼ばれる医用画像合成のための制御可能な拡散モデルを開発した。
近年の拡散確率モデルを利用して、現実的で多様な合成医用画像データを生成する。
提案手法では, 合成試料が医療上の制約に適合することを確実にする。
論文 参考訳(メタデータ) (2023-10-19T16:18:02Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - An Attentive-based Generative Model for Medical Image Synthesis [18.94900480135376]
注意に基づく二重コントラスト生成モデルであるADC-cycleGANを提案する。
このモデルは、二重コントラスト損失項とCycleGAN損失を統合し、合成された画像がソース領域と区別可能であることを保証する。
実験により,提案したADCサイクルGANモデルが,他の最先端生成モデルに匹敵するサンプルを生成することが示された。
論文 参考訳(メタデータ) (2023-06-02T14:17:37Z) - Mask-conditioned latent diffusion for generating gastrointestinal polyp
images [2.027538200191349]
本研究では,与えられたセグメンテーションマスクに条件付き合成GIポリプ画像を生成する条件付きDPMフレームワークを提案する。
本システムでは,ポリプの接地真実マスクを用いて,無限個の高忠実度合成ポリプ画像を生成することができる。
以上の結果から,実データと合成データの両方からなるトレーニングデータから,DeepLabv3+から0.7751の最適マイクロイモージョンIOUが得られた。
論文 参考訳(メタデータ) (2023-04-11T14:11:17Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。