論文の概要: Utilizing Synthetic Data for Medical Vision-Language Pre-training: Bypassing the Need for Real Images
- arxiv url: http://arxiv.org/abs/2310.07027v2
- Date: Tue, 30 Apr 2024 12:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 19:47:42.938730
- Title: Utilizing Synthetic Data for Medical Vision-Language Pre-training: Bypassing the Need for Real Images
- Title(参考訳): 医用視力訓練のための合成データの利用-実画像の必要性を回避して-
- Authors: Che Liu, Anand Shah, Wenjia Bai, Rossella Arcucci,
- Abstract要約: Medical Vision-Language Pre-Trainingは、医用画像とペアの放射線学レポートから、共同で表現を学習する。
我々は、本物の医療報告から生成された、本物の医療画像と、その合成等価物とを置き換える。
我々の経験的評価は、合成データによって達成された性能が実画像と同等かそれ以上であることを示している。
- 参考スコア(独自算出の注目度): 9.86468773903613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Vision-Language Pre-training (VLP) learns representations jointly from medical images and paired radiology reports. It typically requires large-scale paired image-text datasets to achieve effective pre-training for both the image encoder and text encoder. The advent of text-guided generative models raises a compelling question: Can VLP be implemented solely with synthetic images generated from genuine radiology reports, thereby mitigating the need for extensively pairing and curating image-text datasets? In this work, we scrutinize this very question by examining the feasibility and effectiveness of employing synthetic images for medical VLP. We replace real medical images with their synthetic equivalents, generated from authentic medical reports. Utilizing three state-of-the-art VLP algorithms, we exclusively train on these synthetic samples. Our empirical evaluation across three subsequent tasks, namely image classification, semantic segmentation and object detection, reveals that the performance achieved through synthetic data is on par with or even exceeds that obtained with real images. As a pioneering contribution to this domain, we introduce a large-scale synthetic medical image dataset, paired with anonymized real radiology reports. This alleviates the need of sharing medical images, which are not easy to curate and share in practice. The code and the dataset can be found in \href{https://github.com/cheliu-computation/MedSyn-RepLearn/tree/main}{https://github.com/cheliu-computation/MedSyn-RepLearn/tree/main}.
- Abstract(参考訳): 医用ビジョン・ランゲージ・プレトレーニング(VLP)は、医用画像とペアの放射線学レポートから共同で表現を学習する。
通常、画像エンコーダとテキストエンコーダの両方で効果的な事前トレーニングを実現するために、大規模なペアイメージテキストデータセットが必要である。
VLPは、本物の放射線学レポートから生成された合成画像のみに実装できるため、画像テキストデータセットを広範囲にペアリングし、キュレートする必要性を軽減できるだろうか?
本研究は,医療用VLPにおける合成画像の有用性と有効性を検討することで,この問題を精査するものである。
我々は、本物の医療報告から生成された、本物の医療画像と、その合成等価物とを置き換える。
3つの最先端のVLPアルゴリズムを用いることで、これらの合成サンプルのみを訓練する。
画像分類,セマンティックセグメンテーション,オブジェクト検出という3つのタスクにおける経験的評価から,合成データによる性能は実画像と同等かそれ以上であることがわかった。
この領域への先駆的な貢献として、匿名化された実放射線学レポートと組み合わせた大規模合成医用画像データセットを導入する。
これにより、医療画像の共有の必要性が軽減されるが、実際はキュレートや共有は容易ではない。
コードとデータセットは \href{https://github.com/cheliu-computation/MedSyn-RepLearn/tree/main}{https://github.com/cheliu-computation/MedSyn-RepLearn/tree/main} にある。
関連論文リスト
- Transesophageal Echocardiography Generation using Anatomical Models [0.5679566039341877]
合成TEE画像と対応するセマンティックラベルを生成するパイプラインを開発する。
In the pipeline's unpaired image-to-image (I2I) translation section, we explore two generative methods。
合成画像を用いてデータセットを拡大すると、ダイススコアが最大10%向上する。
論文 参考訳(メタデータ) (2024-10-09T11:20:28Z) - Vision-Language Synthetic Data Enhances Echocardiography Downstream Tasks [4.1942958779358674]
本稿では,近年の視覚言語モデルを用いて,多彩でリアルな人工心エコー画像データを作成する。
合成データに含まれるリッチな文脈情報は、下流タスクの精度と解釈可能性を高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-03-28T23:26:45Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays [10.398175542736285]
混合データ入力から学習できる画像テキスト事前学習フレームワークを紹介します。
混合データ入力における事前学習の可能性を示す。
また、3つの胸部x線アプリケーションに事前訓練されたモデルを適用する利点についても述べる。
論文 参考訳(メタデータ) (2021-03-30T01:48:46Z) - Image Translation for Medical Image Generation -- Ischemic Stroke
Lesions [0.0]
注釈付き病理を持つ合成データベースは、必要なトレーニングデータを提供することができる。
画像から画像への変換モデルを訓練し、脳卒中病変を伴わない脳の容積の磁気共鳴像を合成する。
臨床例は10例, 50例に過ぎなかったが, 総合的なデータ拡張は有意な改善をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-10-05T09:12:28Z) - Contrastive Learning of Medical Visual Representations from Paired
Images and Text [38.91117443316013]
本研究では,自然発生した記述的ペアリングテキストを活用することで,医用視覚表現を学習するための教師なし戦略であるConVIRTを提案する。
この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しないため、追加の専門家による入力は不要である。
論文 参考訳(メタデータ) (2020-10-02T02:10:18Z) - Fed-Sim: Federated Simulation for Medical Imaging [131.56325440976207]
本稿では、2つの学習可能なニューラルモジュールからなる物理駆動型生成手法を提案する。
データ合成フレームワークは、複数のデータセットの下流セグメンテーション性能を改善する。
論文 参考訳(メタデータ) (2020-09-01T19:17:46Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。