論文の概要: Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays
- arxiv url: http://arxiv.org/abs/2103.16022v1
- Date: Tue, 30 Mar 2021 01:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:00:05.590810
- Title: Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays
- Title(参考訳): 胸部X線データを用いた自己教師付き画像テキスト事前学習
- Authors: Xiaosong Wang and Ziyue Xu and Leo Tam and Dong Yang and Daguang Xu
- Abstract要約: 混合データ入力から学習できる画像テキスト事前学習フレームワークを紹介します。
混合データ入力における事前学習の可能性を示す。
また、3つの胸部x線アプリケーションに事前訓練されたモデルを適用する利点についても述べる。
- 参考スコア(独自算出の注目度): 10.398175542736285
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pre-trained models, e.g., from ImageNet, have proven to be effective in
boosting the performance of many downstream applications. It is too demanding
to acquire large-scale annotations to build such models for medical imaging.
Meanwhile, there are numerous clinical data (in the form of images and text
reports) stored in the hospital information systems. The paired image-text data
from the same patient study could be utilized for the pre-training task in a
weakly supervised manner. However, the integrity, accessibility, and amount of
such raw data vary across different institutes, e.g., paired vs. unpaired
(image-only or text-only). In this work, we introduce an image-text
pre-training framework that can learn from these raw data with mixed data
inputs, i.e., paired image-text data, a mixture of paired and unpaired data.
The unpaired data can be sourced from one or multiple institutes (e.g., images
from one institute coupled with texts from another). Specifically, we propose a
transformer-based training framework for jointly learning the representation of
both the image and text data. In addition to the existing masked language
modeling, multi-scale masked vision modeling is introduced as a self-supervised
training task for image patch regeneration. We not only demonstrate the
feasibility of pre-training across mixed data inputs but also illustrate the
benefits of adopting such pre-trained models in 3 chest X-ray applications,
i.e., classification, retrieval, and image regeneration. Superior results are
reported in comparison to prior art using MIMIC-CXR, NIH14-CXR, and OpenI-CXR
datasets.
- Abstract(参考訳): 事前訓練されたモデル、例えばImageNetは、多くの下流アプリケーションの性能向上に有効であることが証明されている。
医療画像のためのモデルを構築するには、大規模なアノテーションを取得する必要がある。
一方、病院情報システムには多数の臨床データ(画像とテキストレポートの形で)が保存されている。
同じ患者研究から得られた画像テキストデータを、弱教師付きで事前学習作業に活用することができる。
しかしながら、そのような生データの完全性、アクセシビリティ、および量は、ペアリング対アンペア(画像のみまたはテキストのみ)など、さまざまな機関によって異なる。
本研究では、これらの生データから、ペア画像テキストデータ(ペア画像テキストデータ)とペア画像データ(ペア画像テキストデータ)を混合して学習できる、画像テキスト事前学習フレームワークを提案する。
非ペアのデータは、ある機関または複数の機関(例えば、ある機関からのイメージと別の機関からのテキスト)からソースすることができる。
具体的には,画像とテキストデータの表現を共同で学習するトランスフォーマティブベースの学習フレームワークを提案する。
既存のマスメド言語モデリングに加えて、画像パッチ再生のための自己教師付きトレーニングタスクとして、マルチスケールマスメド・ビジョン・モデリングを導入している。
混合データ入力における事前学習の実現可能性を示すだけでなく, 分類, 検索, 画像再生の3つの胸部X線応用における事前学習モデルの利点を示す。
MIMIC-CXR,NIH14-CXR,OpenI-CXRデータセットを用いた先行技術と比較検討を行った。
関連論文リスト
- Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training [6.292642131180376]
本稿では,胸部X線における画像テキストデータの欠如に対処し,画像テキストペアを一般プロンプトを介して画像テキストペアとして拡張する。
また,医学画像とレポートの学習レベルの特徴を学習するために,ICLとTCLという2つの対照的な損失を設計した。
我々のモデルは、同じ条件下で訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-10-20T05:44:55Z) - Utilizing Synthetic Data for Medical Vision-Language Pre-training: Bypassing the Need for Real Images [9.86468773903613]
Medical Vision-Language Pre-Trainingは、医用画像とペアの放射線学レポートから、共同で表現を学習する。
我々は、本物の医療報告から生成された、本物の医療画像と、その合成等価物とを置き換える。
我々の経験的評価は、合成データによって達成された性能が実画像と同等かそれ以上であることを示している。
論文 参考訳(メタデータ) (2023-10-10T21:29:41Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Unified Medical Image-Text-Label Contrastive Learning With Continuous
Prompt [3.218449686637963]
本稿では,連続的なプロンプトに基づく画像-テキスト-ラベルのコントラスト学習フレームワークを提案する。
我々は,Unified Medical Contrastive Learningフレームワークが下流のタスクに優れた性能を示すことを示す十分な実験を通して実証する。
論文 参考訳(メタデータ) (2023-07-12T05:19:10Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Self Pre-training with Masked Autoencoders for Medical Image
Classification and Segmentation [37.25161294917211]
Masked Autoencoder (MAE) は自然画像解析のための事前学習型視覚変換器 (ViT) に有効であることが示されている。
医用画像解析タスクにおけるMAEを用いた自己事前学習パラダイムについて検討する。
論文 参考訳(メタデータ) (2022-03-10T16:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。