論文の概要: Vision-Core Guided Contrastive Learning for Balanced Multi-modal Prognosis Prediction of Stroke
- arxiv url: http://arxiv.org/abs/2605.14710v1
- Date: Thu, 14 May 2026 11:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.794483
- Title: Vision-Core Guided Contrastive Learning for Balanced Multi-modal Prognosis Prediction of Stroke
- Title(参考訳): ストロークのバランス付きマルチモーダル予後予測のためのビジョンコア指導型コントラスト学習
- Authors: Liren Chen, Lidong Sun, Mingyan Huang, Junzhe Tang, Yinghui Zhu, Guanjie Wang, Yiqing Xia, Ting Xiao,
- Abstract要約: 本稿では,虚血性脳梗塞に対する新しい3モーダル融合モデルを提案する。
脳MRIから半構造化診断テキストを自動的に生成するために,Large Language Model (LLM) を用いる。
また、ビジョンコンディションドデュアルアライメント・フュージョンモジュールと呼ばれるコアコンポーネントを設計する。
- 参考スコア(独自算出の注目度): 4.272151451487239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning and multi-modal fusion have demonstrated transformative potential in medical diagnosis by integrating diverse data sources. However, accurate prognosis for ischemic stroke remains challenging due to limitations in existing multi-modal approaches. First, current methods are predominantly confined to dual-modal fusion, lacking a framework that effectively integrates the trifecta of medical images, structured clinical data, and unstructured text. Second, they often fail to establish deep bidirectional interactions between modalities; To address these critical gaps, this paper proposes a novel tri-modal fusion model for ischemic stroke prognosis. Our approach first enriches the data representation by employing a Large Language Model (LLM) to automatically generate semi-structured diagnostic text from brain MRIs. This process not only addresses the scarcity of expert annotations but also serves as a regularized semantic enhancement, improving multimodal fusion robustness. Furthermore, we design a core component termed the Vision-Conditioned Dual Alignment Fusion Module (VDAFM), which strategically uses visual features as a conditional prior to guide fine-grained interaction with the generated text. This module achieves a dynamic and profound fusion through a dual semantic alignment loss, effectively mitigating modal heterogeneity. Extensive experiments on a real-world clinical dataset demonstrate that our model achieves state-of-the-art performance.
- Abstract(参考訳): 深層学習とマルチモーダル融合は、多様なデータソースを統合することで、医学的診断における変革の可能性を示している。
しかし、既存のマルチモーダルアプローチの限界により、虚血性脳梗塞の正確な予後は依然として困難である。
第一に、現在の方法では、医用画像、構造化された臨床データ、構造化されていないテキストのトリフェクトを効果的に統合する枠組みが欠如している。
第二に、これらの重要なギャップに対処するために、虚血性脳卒中予後のための新しい三相融合モデルを提案する。
提案手法はまず,Large Language Model (LLM) を用いて脳MRIから半構造化診断テキストを自動的に生成することにより,データ表現を充実させる。
このプロセスはエキスパートアノテーションの不足に対処するだけでなく、正規化されたセマンティックエンハンスメントとして機能し、マルチモーダル融合の堅牢性を向上させる。
さらに,VDAFM(Vision-Conditioned Dual Alignment Fusion Module)と呼ばれるコアコンポーネントの設計を行った。
このモジュールはデュアルセマンティックアライメント損失を通じて動的で深い融合を実現し、効果的にモーダルの不均一性を緩和する。
実世界の臨床データセットに対する大規模な実験により、我々のモデルが最先端のパフォーマンスを達成することを示す。
関連論文リスト
- Resilient Vision-Tabular Multimodal Learning under Modality Missingness [1.696842238811138]
マルチモーダルディープラーニングは医療応用において大きな可能性を秘めている。
既存のアプローチの多くは、完全にモダリティの可用性を暗黙的に仮定している。
共同視覚・タブラリ学習のためのマルチモーダルトランスフォーマーフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-12T12:14:13Z) - DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities [3.5045368873011924]
本稿では,Dentangled Alignment を用いた頑健な放射線診断を行う DiA-gnostic VLVAE を提案する。
我々のフレームワークは、共有機能とモダリティ固有の機能を混在させることにより、モダリティの欠如に耐性を持つように設計されている。
コンパクトなLLaMA-Xデコーダは、これらの不整合表現を使用してレポートを効率的に生成する。
論文 参考訳(メタデータ) (2025-11-08T11:08:27Z) - Multimodal Medical Endoscopic Image Analysis via Progressive Disentangle-aware Contrastive Learning [11.158864816564538]
本稿では,Align-Disentangle-Fusion'機構に基づく,革新的な多モード表現学習フレームワークを提案する。
本手法は最先端のアプローチを一貫して上回り,様々な臨床シナリオにおいて高い精度を達成している。
論文 参考訳(メタデータ) (2025-08-23T03:02:51Z) - impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - NEARL-CLIP: Interacted Query Adaptation with Orthogonal Regularization for Medical Vision-Language Understanding [51.63264715941068]
textbfNEARL-CLIP (iunderlineNteracted quunderlineEry underlineAdaptation with ounderlineRthogonaunderlineL regularization)は、VLMベースの新しい相互モダリティ相互作用フレームワークである。
論文 参考訳(メタデータ) (2025-08-06T05:44:01Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。
我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。
我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文 参考訳(メタデータ) (2024-10-21T17:42:41Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。