論文の概要: Multi-modal Masked Siamese Network Improves Chest X-Ray Representation Learning
- arxiv url: http://arxiv.org/abs/2407.04449v1
- Date: Fri, 5 Jul 2024 12:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 13:40:23.406253
- Title: Multi-modal Masked Siamese Network Improves Chest X-Ray Representation Learning
- Title(参考訳): マルチモーダルマスクシームスネットワークによる胸部X線表現学習の改善
- Authors: Saeed Shurrab, Alejandro Guerra-Manzanares, Farah E. Shamout,
- Abstract要約: 胸部X線表現の質を高めるために,Masked Siamese Network (MSN) を用いた自己教師付きプレトレーニング中に EHR データを組み込むことを提案する。
本研究は,医用画像の自己教師付き事前トレーニングの可能性を強調した。
- 参考スコア(独自算出の注目度): 46.674521557701816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning methods for medical images primarily rely on the imaging modality during pretraining. While such approaches deliver promising results, they do not leverage associated patient or scan information collected within Electronic Health Records (EHR). Here, we propose to incorporate EHR data during self-supervised pretraining with a Masked Siamese Network (MSN) to enhance the quality of chest X-ray representations. We investigate three types of EHR data, including demographic, scan metadata, and inpatient stay information. We evaluate our approach on three publicly available chest X-ray datasets, MIMIC-CXR, CheXpert, and NIH-14, using two vision transformer (ViT) backbones, specifically ViT-Tiny and ViT-Small. In assessing the quality of the representations via linear evaluation, our proposed method demonstrates significant improvement compared to vanilla MSN and state-of-the-art self-supervised learning baselines. Our work highlights the potential of EHR-enhanced self-supervised pre-training for medical imaging. The code is publicly available at: https://github.com/nyuad-cai/CXR-EHR-MSN
- Abstract(参考訳): 医用画像の自己教師付き学習法は、主に事前訓練中の画像のモダリティに依存している。
このようなアプローチは有望な結果をもたらすが、関連する患者やElectronic Health Records(EHR)内で収集されたスキャン情報を活用していない。
そこで本研究では,MSN(Masked Siamese Network)を用いた自己教師付きプレトレーニング中にEHRデータを組み込むことにより,胸部X線表現の質を高めることを提案する。
本研究では, 人口統計, スキャンメタデータ, 入院情報を含む3種類のERHデータについて検討した。
胸部X線データセットMIMIC-CXR,CheXpert,NIH-14について,ViTバックボーン,特にViT-TinyとViT-Smallを用いて検討した。
線形評価による表現の質評価において,提案手法は,バニラMSNや最先端の自己教師型学習ベースラインと比較して有意に改善されている。
本研究は,医用画像の自己教師付き事前トレーニングの可能性を強調した。
コードは、https://github.com/nyuad-cai/CXR-EHR-MSNで公開されている。
関連論文リスト
- MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis [1.2903829793534272]
胸部X線像は急性および慢性の心肺疾患の予測に一般的に用いられている。
構造化された臨床データと統合する努力は、不完全な電子健康記録による課題に直面している。
MedPromptXはマルチモーダル大言語モデル(MLLM)、少数ショットプロンプト(FP)、ビジュアルグラウンド(VG)を統合した最初の臨床診断支援システムである。
その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。
論文 参考訳(メタデータ) (2024-03-22T19:19:51Z) - MLVICX: Multi-Level Variance-Covariance Exploration for Chest X-ray Self-Supervised Representation Learning [6.4136876268620115]
MLVICXは、胸部X線画像からの埋め込みの形でリッチな表現をキャプチャするアプローチである。
自己教師付き胸部X線表現学習におけるMLVICXの性能を示す。
論文 参考訳(メタデータ) (2024-03-18T06:19:37Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Enhancing Network Initialization for Medical AI Models Using
Large-Scale, Unlabeled Natural Images [1.883452979588382]
自己教師付き学習(SSL)は胸部X線写真に適用して、堅牢な特徴を学習することができる。
我々は6つの大規模なグローバルデータセットから800,000個の胸部X線写真を用いてアプローチを検証した。
論文 参考訳(メタデータ) (2023-08-15T10:37:13Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image
Analysis [7.214195462426705]
医用画像解析のためのプロキシタスクを調整した,新たな自己教師型学習フレームワークを提案する。
5,050個のCT画像に対して,提案手法の事前学習を成功させた。
私たちのモデルは現在、MSDとBTCV両方のデータセットの公開テストリーダーボードで最先端(すなわち第1位)です。
論文 参考訳(メタデータ) (2021-11-29T18:45:20Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。