論文の概要: Utilizing Synthetic Data for Medical Vision-Language Pre-training:
Bypassing the Need for Real Images
- arxiv url: http://arxiv.org/abs/2310.07027v1
- Date: Tue, 10 Oct 2023 21:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:19:04.767055
- Title: Utilizing Synthetic Data for Medical Vision-Language Pre-training:
Bypassing the Need for Real Images
- Title(参考訳): 医用視覚言語事前学習における合成データの利用 : 実画像の必要性を回避して
- Authors: Che Liu, Anand Shah, Wenjia Bai, Rossella Arcucci
- Abstract要約: Medical Vision-Language Pre-Trainingは、医用画像とペアの放射線学レポートから、共同で表現を学習する。
我々は、本物の医療報告から生成された、本物の医療画像と、その合成等価物とを置き換える。
我々の経験的評価は、合成データによって達成された性能が実画像と同等かそれ以上であることを示している。
- 参考スコア(独自算出の注目度): 10.583290329418109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Vision-Language Pre-training (VLP) learns representations jointly
from medical images and paired radiology reports. It typically requires
large-scale paired image-text datasets to achieve effective pre-training for
both the image encoder and text encoder. The advent of text-guided generative
models raises a compelling question: Can VLP be implemented solely with
synthetic images generated from genuine radiology reports, thereby mitigating
the need for extensively pairing and curating image-text datasets? In this
work, we scrutinize this very question by examining the feasibility and
effectiveness of employing synthetic images for medical VLP. We replace real
medical images with their synthetic equivalents, generated from authentic
medical reports. Utilizing three state-of-the-art VLP algorithms, we
exclusively train on these synthetic samples. Our empirical evaluation across
three subsequent tasks, namely image classification, semantic segmentation and
object detection, reveals that the performance achieved through synthetic data
is on par with or even exceeds that obtained with real images. As a pioneering
contribution to this domain, we introduce a large-scale synthetic medical image
dataset, paired with anonymized real radiology reports. This alleviates the
need of sharing medical images, which are not easy to curate and share in
practice. The code and the dataset will be made publicly available upon paper
acceptance.
- Abstract(参考訳): 医用ビジョン・ランゲージ・プレトレーニング(VLP)は、医用画像とペアの放射線学レポートから共同で表現を学習する。
通常、画像エンコーダとテキストエンコーダの両方で効果的な事前トレーニングを実現するために、大規模なペアイメージテキストデータセットが必要である。
VLPは、本物の放射線学レポートから生成された合成画像のみに実装できるため、画像テキストデータセットを広範囲にペアリングし、キュレートする必要性を軽減できるだろうか?
本研究は,医療用VLPにおける合成画像の有用性と有効性を検討することで,この問題を精査するものである。
我々は、本物の医療報告から生成された、本物の医療画像と、その合成等価物とを置き換える。
3つの最先端のVLPアルゴリズムを用いて、これらの合成サンプルを学習する。
画像分類,意味セグメンテーション,オブジェクト検出という3つのタスクにおける経験的評価結果から,合成データによる性能は実画像と同等かそれ以上であることが分かった。
この領域への先駆的な貢献として,匿名のリアルラジオロジーレポートと組み合わせた大規模合成医用画像データセットを提案する。
これにより、医療画像の共有の必要性が軽減されるが、実際はキュレートや共有は容易ではない。
コードとデータセットは、紙が受け入れられると公開される予定だ。
関連論文リスト
- MedFILIP: Medical Fine-grained Language-Image Pre-training [11.894318326422054]
既存の手法は、画像と疾患の関連性を正確に特徴づけるのに苦労している。
MedFILIPは対照的な学習を通じて医用画像固有の知識を導入する。
単一ラベル,多ラベル,きめ細かな分類を行う場合,本モデルは最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-01-18T14:08:33Z) - Vision-Language Synthetic Data Enhances Echocardiography Downstream Tasks [4.1942958779358674]
本稿では,近年の視覚言語モデルを用いて,多彩でリアルな人工心エコー画像データを作成する。
合成データに含まれるリッチな文脈情報は、下流タスクの精度と解釈可能性を高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-03-28T23:26:45Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays [10.398175542736285]
混合データ入力から学習できる画像テキスト事前学習フレームワークを紹介します。
混合データ入力における事前学習の可能性を示す。
また、3つの胸部x線アプリケーションに事前訓練されたモデルを適用する利点についても述べる。
論文 参考訳(メタデータ) (2021-03-30T01:48:46Z) - Image Translation for Medical Image Generation -- Ischemic Stroke
Lesions [0.0]
注釈付き病理を持つ合成データベースは、必要なトレーニングデータを提供することができる。
画像から画像への変換モデルを訓練し、脳卒中病変を伴わない脳の容積の磁気共鳴像を合成する。
臨床例は10例, 50例に過ぎなかったが, 総合的なデータ拡張は有意な改善をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-10-05T09:12:28Z) - Contrastive Learning of Medical Visual Representations from Paired
Images and Text [38.91117443316013]
本研究では,自然発生した記述的ペアリングテキストを活用することで,医用視覚表現を学習するための教師なし戦略であるConVIRTを提案する。
この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しないため、追加の専門家による入力は不要である。
論文 参考訳(メタデータ) (2020-10-02T02:10:18Z) - Fed-Sim: Federated Simulation for Medical Imaging [131.56325440976207]
本稿では、2つの学習可能なニューラルモジュールからなる物理駆動型生成手法を提案する。
データ合成フレームワークは、複数のデータセットの下流セグメンテーション性能を改善する。
論文 参考訳(メタデータ) (2020-09-01T19:17:46Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。