論文の概要: FMT:A Multimodal Pneumonia Detection Model Based on Stacking MOE Framework
- arxiv url: http://arxiv.org/abs/2503.05626v1
- Date: Fri, 07 Mar 2025 17:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:23:57.799210
- Title: FMT:A Multimodal Pneumonia Detection Model Based on Stacking MOE Framework
- Title(参考訳): FMT:スタック型MOEフレームワークに基づくマルチモーダル肺炎検出モデル
- Authors: Jingyu Xu, Yang Wang,
- Abstract要約: 共同表現学習にResNet-50とBERTを用いたフレキシブルマルチモーダルトランス (FMT) を提案する。
マルチモーダル肺炎データセットを用いて評価した結果,94%の精度,95%のリコール,93%のF1スコアが得られた。
- 参考スコア(独自算出の注目度): 4.429093762434193
- License:
- Abstract: Artificial intelligence has shown the potential to improve diagnostic accuracy through medical image analysis for pneumonia diagnosis. However, traditional multimodal approaches often fail to address real-world challenges such as incomplete data and modality loss. In this study, a Flexible Multimodal Transformer (FMT) was proposed, which uses ResNet-50 and BERT for joint representation learning, followed by a dynamic masked attention strategy that simulates clinical modality loss to improve robustness; finally, a sequential mixture of experts (MOE) architecture was used to achieve multi-level decision refinement. After evaluation on a small multimodal pneumonia dataset, FMT achieved state-of-the-art performance with 94% accuracy, 95% recall, and 93% F1 score, outperforming single-modal baselines (ResNet: 89%; BERT: 79%) and the medical benchmark CheXMed (90%), providing a scalable solution for multimodal diagnosis of pneumonia in resource-constrained medical settings.
- Abstract(参考訳): 人工知能は、肺炎の診断のための医療画像解析を通じて診断精度を向上させる可能性を示している。
しかし、従来のマルチモーダルアプローチは、不完全データやモダリティ損失といった現実の課題に対処できないことが多い。
本研究では,共同表現学習にResNet-50とBERTを併用したフレキシブル・マルチモーダル・トランスフォーマー(FMT)を提案し,その後,臨床モダリティ・ロスをシミュレートしてロバスト性を向上させる動的マスキング・アテンション戦略を適用した。
小型のマルチモーダル肺炎データセットの評価の後、FMTは94%の精度、95%のリコール、93%のF1スコア、シングルモーダルベースライン(ResNet:89%、BERT:79%)、医療ベンチマークCheXMed(90%)を達成し、リソース制約された医療環境での肺炎のマルチモーダル診断にスケーラブルなソリューションを提供する。
関連論文リスト
- DiaMond: Dementia Diagnosis with Multi-Modal Vision Transformers Using MRI and PET [9.229658208994675]
我々はMRIとPETを統合する新しいフレームワークDiaMondを提案する。
DiaMondは、MRIとPETを相乗的に組み合わせた、自己注意機構と、新しいバイアテンション機構を備えている。
既存のマルチモーダルメソッドを、さまざまなデータセットで大幅に上回る。
論文 参考訳(メタデータ) (2024-10-30T17:11:00Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Multi-modal Learning with Missing Modality in Predicting Axillary Lymph
Node Metastasis [7.207158973042472]
多モードデータ、全スライド画像(WSI)および臨床情報により、軸索リンパ節転移の診断におけるディープラーニングモデルの性能を向上させることができる。
マルチモーダル分岐と単一モーダル分岐からなる双方向蒸留フレームワークを提案する。
提案手法は,AUCが0.861,AUCが0.842,AUCが80%,AUCが0.842,AUCが0.842となっている。
論文 参考訳(メタデータ) (2024-01-03T05:59:48Z) - Interpretable 3D Multi-Modal Residual Convolutional Neural Network for
Mild Traumatic Brain Injury Diagnosis [1.0621519762024807]
Occlusion Sensitivity Maps (OSM) を用いたmTBI診断モデルのための解釈可能な3次元多モード残差畳み込みニューラルネットワーク(MRCNN)を提案する。
MRCNNモデルでは, 平均精度82.4%, 感度82.6%, 特異性81.6%を5倍のクロスバリデーション法で検証した。
論文 参考訳(メタデータ) (2023-09-22T01:58:27Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - HGT: A Hierarchical GCN-Based Transformer for Multimodal Periprosthetic
Joint Infection Diagnosis Using CT Images and Text [0.0]
補綴関節感染症(PJI)は重篤な合併症である。
現在,CT画像とPJIの数値テキストデータを組み合わせた統一診断基準が確立されていない。
本研究では,ディープラーニングとマルチモーダル技術に基づく診断手法であるHGTを紹介する。
論文 参考訳(メタデータ) (2023-05-29T11:25:57Z) - Advancing Radiograph Representation Learning with Masked Record Modeling [52.04899592688968]
我々は2つの相補的な目的として自己と報告の補完を定式化し、マスク付きレコードモデリング(MRM)に基づく統一的な枠組みを提案する。
MRMは、知識強化されたセマンティック表現を学ぶためのマルチタスクスキームに従って、マスクされた画像パッチとマスクされたレポートトークンを再構築する。
具体的には、MRMはラベル効率の良い微調整において優れた性能を提供する。
論文 参考訳(メタデータ) (2023-01-30T18:33:32Z) - MMLN: Leveraging Domain Knowledge for Multimodal Diagnosis [10.133715767542386]
肺疾患診断のための知識駆動型およびデータ駆動型フレームワークを提案する。
本研究は, 臨床医学ガイドラインに従って診断規則を定式化し, テキストデータから規則の重みを学習する。
テキストと画像データからなるマルチモーダル融合は、肺疾患の限界確率を推定するために設計されている。
論文 参考訳(メタデータ) (2022-02-09T04:12:30Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。