論文の概要: Zero-Shot Multi-modal Large Language Model v.s. Supervised Deep Learning: A Comparative Study on CT-Based Intracranial Hemorrhage Subtyping
- arxiv url: http://arxiv.org/abs/2505.09252v1
- Date: Wed, 14 May 2025 09:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.412849
- Title: Zero-Shot Multi-modal Large Language Model v.s. Supervised Deep Learning: A Comparative Study on CT-Based Intracranial Hemorrhage Subtyping
- Title(参考訳): Zero-Shot Multi-modal Large Language Model v.s. Supervised Deep Learning: CTによる頭蓋内出血サブタイピングの比較検討
- Authors: Yinuo Wang, Yue Zeng, Kai Chen, Cai Meng, Chao Pan, Zhouping Tang,
- Abstract要約: 非造影CTによる頭蓋内出血(ICH)のタイムリー同定は予後予測と治療的判断に重要である。
本研究は、ICHバイナリ分類およびサブタイプにおける従来のディープラーニング手法と比較して、ゼロショットマルチモーダル大言語モデル(MLLM)の性能を評価する。
- 参考スコア(独自算出の注目度): 10.890363916095737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Introduction: Timely identification of intracranial hemorrhage (ICH) subtypes on non-contrast computed tomography is critical for prognosis prediction and therapeutic decision-making, yet remains challenging due to low contrast and blurring boundaries. This study evaluates the performance of zero-shot multi-modal large language models (MLLMs) compared to traditional deep learning methods in ICH binary classification and subtyping. Methods: We utilized a dataset provided by RSNA, comprising 192 NCCT volumes. The study compares various MLLMs, including GPT-4o, Gemini 2.0 Flash, and Claude 3.5 Sonnet V2, with conventional deep learning models, including ResNet50 and Vision Transformer. Carefully crafted prompts were used to guide MLLMs in tasks such as ICH presence, subtype classification, localization, and volume estimation. Results: The results indicate that in the ICH binary classification task, traditional deep learning models outperform MLLMs comprehensively. For subtype classification, MLLMs also exhibit inferior performance compared to traditional deep learning models, with Gemini 2.0 Flash achieving an macro-averaged precision of 0.41 and a macro-averaged F1 score of 0.31. Conclusion: While MLLMs excel in interactive capabilities, their overall accuracy in ICH subtyping is inferior to deep networks. However, MLLMs enhance interpretability through language interactions, indicating potential in medical imaging analysis. Future efforts will focus on model refinement and developing more precise MLLMs to improve performance in three-dimensional medical image processing.
- Abstract(参考訳): 紹介:非造影CTにおける頭蓋内出血(ICH)サブタイプのタイムリー同定は予後予測と治療的判断に重要であるが,低コントラストと曖昧な境界のために依然として困難である。
本研究は、ICHバイナリ分類およびサブタイプにおける従来のディープラーニング手法と比較して、ゼロショットマルチモーダル大言語モデル(MLLM)の性能を評価する。
方法: NCCT192巻からなるRSNAのデータセットを用いた。
この研究では、GPT-4o、Gemini 2.0 Flash、Claude 3.5 Sonnet V2などのMLLMと、ResNet50やVision Transformerといった従来のディープラーニングモデルを比較した。
ICHの存在、サブタイプ分類、ローカライゼーション、ボリューム推定といったタスクでMLLMをガイドするために、注意深いプロンプトが使用された。
結果:ICHバイナリ分類タスクでは,従来のディープラーニングモデルはMLLMを総合的に上回る結果が得られた。
サブタイプ分類では、MLLMは従来のディープラーニングモデルよりも性能が劣り、Gemini 2.0 Flashはマクロ平均精度0.41、マクロ平均F1スコア0.31を達成している。
結論:MLLMは対話能力に優れるが,ICHサブタイプにおける全体的な精度はディープネットワークよりも劣る。
しかし、MLLMは言語相互作用を通じて解釈可能性を高め、医用画像解析の可能性を示唆している。
今後,3次元医用画像処理の性能向上のために,モデル改良とより精密なMLLMの開発に注力する。
関連論文リスト
- MMLNB: Multi-Modal Learning for Neuroblastoma Subtyping Classification Assisted with Textual Description Generation [1.8947479010393964]
MMLNBは、病理画像と生成されたテキスト記述を統合して、分類精度と解釈可能性を向上させるマルチモーダル学習モデルである。
本研究は,神経芽腫サブタイプ分類における信頼性と解釈可能性を高める,スケーラブルなAI駆動型デジタル病理フレームワークを作成する。
論文 参考訳(メタデータ) (2025-03-17T08:38:46Z) - Enhancing Transfer Learning for Medical Image Classification with SMOTE: A Comparative Study [0.0]
本稿では,医療画像における多ラベル画像分類へのトランスファーラーニング(TL)の適用について検討し,拡張する。
以上の結果から, TLモデルは脳腫瘍の分類に優れ, ほぼ最適測定値が得られた。
我々は,SMOTE(Synthetic Minority Oversampling Computing Technique)とTLと従来の機械学習(ML)手法を統合し,精度を1.97%向上し,リコール(感度)を5.43%向上し,特異度を0.72%向上させる。
論文 参考訳(メタデータ) (2024-12-28T18:15:07Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information [32.57246173437492]
視覚検出モデルは、きめ細かい画像の詳細を認識するのに優れている。
1つの効果的な戦略は、シンプルで効果的なテキスト形式で検出情報を注入することである。
本稿では,MLLMのテキスト検出情報に対する理解に,学習はどのような影響を与えるのか,という疑問に対処する。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Successive Subspace Learning for Cardiac Disease Classification with
Two-phase Deformation Fields from Cine MRI [36.044984400761535]
本研究は,CVD分類のための軽量な逐次サブスペース学習フレームワークを提案する。
解釈可能なフィードフォワードデザインに基づいており、心房と組み合わせている。
3D CNNベースのアプローチと比較して、我々のフレームワークは140$times$より少ないパラメータで優れた分類性能を実現する。
論文 参考訳(メタデータ) (2023-01-21T15:00:59Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。