Fugu-MT 論文翻訳(概要): MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report

論文の概要: MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report

arxiv url: http://arxiv.org/abs/2410.16239v1
Date: Mon, 21 Oct 2024 17:42:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.603165
Title: MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report
Title（参考訳）: MoRE:X線・心電図・診断用トランスフォーマーを用いたマルチモーダルコントラスト事前トレーニング
Authors: Samrajya Thapa, Koushik Howlader, Subhankar Bhattacharjee, Wei le,
Abstract要約: 我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
参考スコア（独自算出の注目度）: 4.340464264725625
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce a novel Multi-Modal Contrastive Pre-training Framework that synergistically combines X-rays, electrocardiograms (ECGs), and radiology/cardiology reports. Our approach leverages transformers to encode these diverse modalities into a unified representation space, aiming to enhance diagnostic accuracy and facilitate comprehensive patient assessments. We utilize LoRA-Peft to significantly reduce trainable parameters in the LLM and incorporate recent linear attention dropping strategy in the Vision Transformer(ViT) for smoother attention. Furthermore, we provide novel multimodal attention explanations and retrieval for our model. To the best of our knowledge, we are the first to propose an integrated model that combines X-ray, ECG, and Radiology/Cardiology Report with this approach. By utilizing contrastive loss, MoRE effectively aligns modality-specific features into a coherent embedding, which supports various downstream tasks such as zero-shot classification and multimodal retrieval. Employing our proposed methodology, we achieve state-of-the-art (SOTA) on the Mimic-IV, CheXpert, Edema Severity, and PtbXl downstream datasets, surpassing existing multimodal approaches. Our proposed framework shows significant improvements in capturing intricate inter-modal relationships and its robustness in medical diagnosis that establishes a framework for future research in multimodal learning in the healthcare sector.
Abstract（参考訳）: 本稿では,X線,心電図,放射線・心電図を相乗的に組み合わせたマルチモーダルコントラスト事前トレーニングフレームワークを提案する。提案手法はトランスフォーマーを利用して,これらの多様なモダリティを統一表現空間に符号化し,診断精度の向上と包括的患者評価の促進を目的としている。我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。さらに,本モデルに対する新しいマルチモーダルアテンション説明と検索を行う。我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。対照的な損失を生かして、MoREは、モダリティ特有の特徴を、ゼロショット分類やマルチモーダル検索など、さまざまな下流タスクをサポートするコヒーレントな埋め込みに効果的に整合させる。提案手法を用いることで,Mimic-IV,CheXpert,Edema Severity,PtbXl下流データセット上での最先端(SOTA)を実現し,既存のマルチモーダルアプローチを超越した。提案手法は,医療分野におけるマルチモーダルラーニング研究の枠組みを確立するための,複雑なモーダル間関係の獲得とその医療診断における堅牢性を示す。

関連論文リスト

Forging a Dynamic Memory: Retrieval-Guided Continual Learning for Generalist Medical Foundation Models [45.285970665585914]
本稿では,継続的学習のための包括的枠組みを提案する。モデル微調整のためのリアルタイムガイダンスを提供するマルチモーダル多層RAGシステムを用いる。動的知識蒸留フレームワークを導入する。
論文参考訳（メタデータ） (2025-12-15T08:09:40Z)
Breast Cancer VLMs: Clinically Practical Vision-Language Train-Inference Models [2.7165660672916787]
本研究では,2次元マンモグラムの視覚的特徴と,容易にアクセス可能な臨床メタデータから得られる構造化テキスト記述子を組み合わせた新しい枠組みを提案する。本研究では,畳み込みニューラルネットワーク(ConvNet)と言語表現との戦略的統合が,視覚トランスフォーマーモデルよりも優れた性能を実現することを示す。
論文参考訳（メタデータ） (2025-10-29T00:37:18Z)
RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。 RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文参考訳（メタデータ） (2025-09-24T10:36:14Z)
Multimodal Medical Endoscopic Image Analysis via Progressive Disentangle-aware Contrastive Learning [11.158864816564538]
本稿では,Align-Disentangle-Fusion'機構に基づく,革新的な多モード表現学習フレームワークを提案する。本手法は最先端のアプローチを一貫して上回り,様々な臨床シナリオにおいて高い精度を達成している。
論文参考訳（メタデータ） (2025-08-23T03:02:51Z)
impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文参考訳（メタデータ） (2025-08-08T10:01:16Z)
NEARL-CLIP: Interacted Query Adaptation with Orthogonal Regularization for Medical Vision-Language Understanding [51.63264715941068]
textbfNEARL-CLIP (iunderlineNteracted quunderlineEry underlineAdaptation with ounderlineRthogonaunderlineL regularization)は、VLMベースの新しい相互モダリティ相互作用フレームワークである。
論文参考訳（メタデータ） (2025-08-06T05:44:01Z)
Graph-based Multi-Modal Interaction Lightweight Network for Brain Tumor Segmentation (GMLN-BTS) in Edge Iterative MRI Lesion Localization System (EdgeIMLocSys) [6.451534509235736]
本稿では,人間のフィードバックから連続学習を統合するEdge IMLocSys (Edge Iterative MRI Lesion Localization System) を提案する。このシステムの中心は、GMLN-BTS(GMLN-BTS)のためのグラフベースの多モード相互作用軽量ネットワークである。提案したGMLN-BTSモデルは、BraTS 2017データセットで85.1%のDiceスコアを達成し、パラメータはわずか458万で、メインストリームの3Dトランスフォーマーモデルと比較して98%削減された。
論文参考訳（メタデータ） (2025-07-14T07:29:49Z)
NeuroMoE: A Transformer-Based Mixture-of-Experts Framework for Multi-Modal Neurological Disorder Classification [3.5313393560458826]
Deep Learningは最近、診断を助けるために医療データから意味のあるパターンを抽出する強力なツールとして登場した。神経疾患を分類するための新しいトランスフォーマーベースのMixture-of-Experts(MoE)フレームワークを提案する。我々のフレームワークは82.47%の検証精度を達成し、ベースライン法を10%以上上回っている。
論文参考訳（メタデータ） (2025-06-17T20:40:06Z)
A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-14T20:28:04Z)
MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation [4.760537994346813]
医用画像報告は、放射線画像から構造化された臨床記述を生成することを目的としている。そこで我々は, ゲート型クロスアライメント融合モデルであるMicarVLMoEを提案する。我々は、MIRをCTスキャン、網膜イメージング、MRIスキャン、Grog pathology imageに拡張し、最先端の結果を報告する。
論文参考訳（メタデータ） (2025-04-29T01:26:02Z)
Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文参考訳（メタデータ） (2025-01-30T06:49:57Z)
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文参考訳（メタデータ） (2024-10-16T23:03:27Z)
Multi-modal Cross-domain Self-supervised Pre-training for fMRI and EEG Fusion [3.8153469790341084]
ドメイン間でのマルチモーダル情報の相乗化に自己教師付き学習を活用する新しい手法を提案する。提案手法を利用した大規模事前学習データセットと事前学習MCSPモデルを構築した。本研究は,fMRIと脳波の融合の著しい進展に寄与し,クロスドメイン機能の統合を図っている。
論文参考訳（メタデータ） (2024-09-27T20:25:17Z)
HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。我々は, 単一モダリティモデルと最先端MRI-タブラルデータ融合法の両方に優れることを示す。
論文参考訳（メタデータ） (2024-03-20T05:50:04Z)
Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文参考訳（メタデータ） (2024-03-19T03:59:14Z)
SELECTOR: Heterogeneous graph network with convolutional masked autoencoder for multimodal robust prediction of cancer survival [8.403756148610269]
がん患者生存のマルチモーダル予測は、より包括的で正確なアプローチを提供する。本稿では、畳み込みマスクエンコーダに基づく異種グラフ認識ネットワークであるSELECTORを紹介する。本手法は,モダリティ欠落とモダリティ内情報確認の両事例において,最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2024-03-14T11:23:39Z)
MV-Swin-T: Mammogram Classification with Multi-view Swin Transformer [0.257133335028485]
マンモグラフィ画像分類における課題に対処するために,トランスフォーマーに基づく革新的なマルチビューネットワークを提案する。提案手法では,ウィンドウベースの動的アテンションブロックを導入し,マルチビュー情報の効果的な統合を容易にする。
論文参考訳（メタデータ） (2024-02-26T04:41:04Z)
Cross-modality Guidance-aided Multi-modal Learning with Dual Attention for MRI Brain Tumor Grading [47.50733518140625]
脳腫瘍は世界で最も致命的ながんの1つであり、子供や高齢者に非常に多い。本稿では,MRI脳腫瘍グレーディングの課題に対処するために,新たな多モード学習法を提案する。
論文参考訳（メタデータ） (2024-01-17T07:54:49Z)
XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文参考訳（メタデータ） (2023-12-29T14:28:04Z)
Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文参考訳（メタデータ） (2023-05-13T13:53:48Z)
Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-04-10T17:58:22Z)
MMLN: Leveraging Domain Knowledge for Multimodal Diagnosis [10.133715767542386]
肺疾患診断のための知識駆動型およびデータ駆動型フレームワークを提案する。本研究は, 臨床医学ガイドラインに従って診断規則を定式化し, テキストデータから規則の重みを学習する。テキストと画像データからなるマルチモーダル融合は、肺疾患の限界確率を推定するために設計されている。
論文参考訳（メタデータ） (2022-02-09T04:12:30Z)
Modality Completion via Gaussian Process Prior Variational Autoencoders for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。 MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。 4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文参考訳（メタデータ） (2021-07-07T19:06:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。