論文の概要: PE-MVCNet: Multi-view and Cross-modal Fusion Network for Pulmonary
Embolism Prediction
- arxiv url: http://arxiv.org/abs/2402.17187v1
- Date: Tue, 27 Feb 2024 03:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:52:26.096739
- Title: PE-MVCNet: Multi-view and Cross-modal Fusion Network for Pulmonary
Embolism Prediction
- Title(参考訳): pe-mvcnet:肺塞栓症予測のためのマルチビュー・クロスモーダル融合ネットワーク
- Authors: Zhaoxin Guo, Zhipeng Wang, Ruiquan Ge, Jianxun Yu, Feiwei Qin, Yuan
Tian, Yuqing Peng, Yonghong Li, Changmiao Wang
- Abstract要約: 画像ベースと非画像ベースの両方の特徴は、医療分類タスクにおいて最も重要である。
PE-MVCNetとよばれる多モード核融合法を提案する。
AUROCは94.1%、精度は90.2%、F1スコアは90.6%である。
- 参考スコア(独自算出の注目度): 4.835241621041882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The early detection of a pulmonary embolism (PE) is critical for enhancing
patient survival rates. Both image-based and non-image-based features are of
utmost importance in medical classification tasks. In a clinical setting,
physicians tend to rely on the contextual information provided by Electronic
Medical Records (EMR) to interpret medical imaging. However, very few models
effectively integrate clinical information with imaging data. To address this
shortcoming, we suggest a multimodal fusion methodology, termed PE-MVCNet,
which capitalizes on Computed Tomography Pulmonary Angiography imaging and EMR
data. This method comprises the Image-only module with an integrated multi-view
block, the EMR-only module, and the Cross-modal Attention Fusion (CMAF) module.
These modules cooperate to extract comprehensive features that subsequently
generate predictions for PE. We conducted experiments using the publicly
accessible Stanford University Medical Center dataset, achieving an AUROC of
94.1%, an accuracy rate of 90.2%, and an F1 score of 90.6%. Our proposed model
outperforms existing methodologies, corroborating that our multimodal fusion
model excels compared to models that use a single data modality.
- Abstract(参考訳): 肺塞栓症(pe)の早期発見は患者の生存率を高める上で重要である。
画像ベースと非画像ベースの両方の特徴は、医療分類タスクにおいて極めて重要である。
臨床現場では、医師は医療画像の解釈に電子医療記録(EMR)が提供する文脈情報に頼る傾向がある。
しかし、臨床情報を画像データと効果的に統合するモデルはほとんどない。
この欠点に対処するために,ct肺血管造影画像とemrデータに基づくマルチモーダル核融合法pe-mvcnetを提案する。
この方法は、統合マルチビューブロックを備えた画像専用モジュール、EMR専用モジュール、およびCross-modal Attention Fusion (CMAF)モジュールを含む。
これらのモジュールは協調して、PEの予測を生成する包括的な特徴を抽出する。
スタンフォード大学医療センターデータセットを用いた実験を行い、aurocは94.1%、精度は90.2%、f1スコアは90.6%とした。
提案手法は既存の手法よりも優れており,単一のデータモダリティを用いたモデルに比べ,マルチモーダル融合モデルが優れていることを裏付ける。
関連論文リスト
- MedMimic: Physician-Inspired Multimodal Fusion for Early Diagnosis of Fever of Unknown Origin [3.937224424603788]
MedMimicは、現実世界の診断プロセスにインスパイアされたマルチモーダルフレームワークとして紹介されている。
DINOv2、Vision Transformer、ResNet-18といった事前訓練されたモデルを使用して、高次元の18F-FDG PET/CTイメージングを意味のある特徴に変換する。
学習可能な自己注意型核融合ネットワークは、これらの画像特徴を分類のための臨床データと統合する。
論文 参考訳(メタデータ) (2025-02-07T09:57:03Z) - Multimodal Medical Disease Classification with LLaMA II [0.14999444543328289]
臨床報告に関連付けられた2次元胸部X線によるOpenIのテキストイメージペアデータセットを用いて検討した。
我々の焦点は、医療データセットから抽出したテキストと視覚情報を融合するための融合手法である。
新たに導入されたマルチモーダルアーキテクチャは、少ない労力で他のマルチモーダルデータセットに適用することができ、さらなる研究に容易に適応することができる。
論文 参考訳(メタデータ) (2024-12-02T09:18:07Z) - Multi-modal Medical Image Fusion For Non-Small Cell Lung Cancer Classification [7.002657345547741]
非小細胞肺癌(NSCLC)は、世界中のがん死亡の主な原因である。
本稿では, 融合医療画像(CT, PET)と臨床健康記録, ゲノムデータとを合成する, マルチモーダルデータの革新的な統合について紹介する。
NSCLCの検出と分類精度の大幅な向上により,本研究は既存のアプローチを超越している。
論文 参考訳(メタデータ) (2024-09-27T12:59:29Z) - HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
このアプローチは、これらのモダリティに存在する相補的な情報を活用し、様々な医療応用の精度を高めることを目的としている。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - A New Multimodal Medical Image Fusion based on Laplacian Autoencoder
with Channel Attention [3.1531360678320897]
ディープラーニングモデルは、非常に堅牢で正確なパフォーマンスでエンドツーエンドの画像融合を実現した。
ほとんどのDLベースの融合モデルは、学習可能なパラメータや計算量を最小限に抑えるために、入力画像上でダウンサンプリングを行う。
本稿では,ラープラシア・ガウス統合とアテンションプールを融合したマルチモーダル医用画像融合モデルを提案する。
論文 参考訳(メタデータ) (2023-10-18T11:29:53Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - A Multi-Stage Attentive Transfer Learning Framework for Improving
COVID-19 Diagnosis [49.3704402041314]
新型コロナの診断を改善するための多段階集中移動学習フレームワークを提案する。
提案するフレームワークは、複数のソースタスクと異なるドメインのデータから知識を学習し、正確な診断モデルを訓練する3つの段階からなる。
本稿では,肺CT画像のマルチスケール表現を学習するための自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-14T01:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。