論文の概要: MMLNB: Multi-Modal Learning for Neuroblastoma Subtyping Classification Assisted with Textual Description Generation
- arxiv url: http://arxiv.org/abs/2503.12927v1
- Date: Mon, 17 Mar 2025 08:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:01.884314
- Title: MMLNB: Multi-Modal Learning for Neuroblastoma Subtyping Classification Assisted with Textual Description Generation
- Title(参考訳): MMLNB: テキスト記述生成支援による神経芽腫サブタイプ分類のためのマルチモーダル学習
- Authors: Huangwei Chen, Zhu Zhu, Zhenyu Yan, Yifei Chen, Mingyang Ding, Chenlei Li, Feiwei Qin,
- Abstract要約: MMLNBは、病理画像と生成されたテキスト記述を統合して、分類精度と解釈可能性を向上させるマルチモーダル学習モデルである。
本研究は,神経芽腫サブタイプ分類における信頼性と解釈可能性を高める,スケーラブルなAI駆動型デジタル病理フレームワークを作成する。
- 参考スコア(独自算出の注目度): 1.8947479010393964
- License:
- Abstract: Neuroblastoma (NB), a leading cause of childhood cancer mortality, exhibits significant histopathological variability, necessitating precise subtyping for accurate prognosis and treatment. Traditional diagnostic methods rely on subjective evaluations that are time-consuming and inconsistent. To address these challenges, we introduce MMLNB, a multi-modal learning (MML) model that integrates pathological images with generated textual descriptions to improve classification accuracy and interpretability. The approach follows a two-stage process. First, we fine-tune a Vision-Language Model (VLM) to enhance pathology-aware text generation. Second, the fine-tuned VLM generates textual descriptions, using a dual-branch architecture to independently extract visual and textual features. These features are fused via Progressive Robust Multi-Modal Fusion (PRMF) Block for stable training. Experimental results show that the MMLNB model is more accurate than the single modal model. Ablation studies demonstrate the importance of multi-modal fusion, fine-tuning, and the PRMF mechanism. This research creates a scalable AI-driven framework for digital pathology, enhancing reliability and interpretability in NB subtyping classification. Our source code is available at https://github.com/HovChen/MMLNB.
- Abstract(参考訳): 小児がん死亡の主な原因である神経芽細胞腫(NB)は、正確な予後と治療のために正確なサブタイプを必要とする。
従来の診断方法は、時間と一貫性のない主観的評価に依存している。
これらの課題に対処するために、我々は、病理画像と生成されたテキスト記述を統合するマルチモーダル学習(MML)モデルであるMMLNBを導入し、分類精度と解釈可能性を改善する。
このアプローチは2段階のプロセスに従っている。
まず視覚言語モデル (VLM) を微調整し, 病理学的テキスト生成の高度化を図る。
第二に、細調整されたVLMは、視覚的特徴とテキスト的特徴を独立して抽出するためにデュアルブランチアーキテクチャを用いてテキスト記述を生成する。
これらの機能は、安定したトレーニングのためにプログレッシブ・ロバスト・マルチモーダル・フュージョン(PRMF)ブロックを介して融合される。
実験の結果,MMLNBモデルは単一モーダルモデルよりも精度が高いことがわかった。
アブレーション研究は、マルチモーダル核融合、微調整、およびPRMF機構の重要性を示している。
この研究は、NBサブタイプ分類における信頼性と解釈可能性を高める、デジタル病理学のためのスケーラブルなAI駆動フレームワークを作成する。
ソースコードはhttps://github.com/HovChen/MMLNB.comで公開されています。
関連論文リスト
- PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - An interpretable generative multimodal neuroimaging-genomics framework for decoding Alzheimer's disease [13.213387075528017]
アルツハイマー病(英語: Alzheimer's disease, AD)は、認知機能障害(Mild Cognitive Impairment, MCI)として知られる前ドロマステージを含む認知症である。
この研究の目的は、マルチモーダルMRIデータと単一核化物多型に依存する脳構造と機能の構造的・機能的調節を捉えることである。
論文 参考訳(メタデータ) (2024-06-19T07:31:47Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - MMLN: Leveraging Domain Knowledge for Multimodal Diagnosis [10.133715767542386]
肺疾患診断のための知識駆動型およびデータ駆動型フレームワークを提案する。
本研究は, 臨床医学ガイドラインに従って診断規則を定式化し, テキストデータから規則の重みを学習する。
テキストと画像データからなるマルチモーダル融合は、肺疾患の限界確率を推定するために設計されている。
論文 参考訳(メタデータ) (2022-02-09T04:12:30Z) - MCUa: Multi-level Context and Uncertainty aware Dynamic Deep Ensemble
for Breast Cancer Histology Image Classification [18.833782238355386]
我々は,MCUa(Multi-level Context and Uncertainty aware)動的深層学習アンサンブルモデルという新しいCNNを提案する。
MCUamodelは、乳がん組織像データセットで98.11%の精度を達成した。
論文 参考訳(メタデータ) (2021-08-24T13:18:57Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Ensemble manifold based regularized multi-modal graph convolutional
network for cognitive ability prediction [33.03449099154264]
マルチモーダル機能磁気共鳴イメージング(fMRI)を使用して、脳の接続ネットワークに基づいて個々の行動特性および認知特性を予測することができます。
本稿では,fMRI時系列と各脳領域間の機能接続(FC)を組み込んだ,解釈可能な多モードグラフ畳み込みネットワーク(MGCN)モデルを提案する。
我々は、フィラデルフィア神経開発コホート上のMGCNモデルを検証し、個々の広範囲達成テスト(WRAT)スコアを予測します。
論文 参考訳(メタデータ) (2021-01-20T20:53:07Z) - Learning Interpretable Microscopic Features of Tumor by Multi-task
Adversarial CNNs To Improve Generalization [1.7371375427784381]
既存のCNNモデルはブラックボックスとして機能し、医師が重要な診断機能がモデルによって使用されることを保証しない。
ここでは,マルチタスクと敵の損失を両立させる不確実性に基づく重み付けの組み合わせをエンド・ツー・エンドで学習することにより,病理的特徴に焦点を合わせることを推奨する。
AUC 0.89 (0.01) がベースラインであるAUC 0.86 (0.005) に対して最も高い値を示した。
論文 参考訳(メタデータ) (2020-08-04T12:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。