論文の概要: MDF-MLLM: Deep Fusion Through Cross-Modal Feature Alignment for Contextually Aware Fundoscopic Image Classification
- arxiv url: http://arxiv.org/abs/2509.21358v1
- Date: Sun, 21 Sep 2025 05:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.865394
- Title: MDF-MLLM: Deep Fusion Through Cross-Modal Feature Alignment for Contextually Aware Fundoscopic Image Classification
- Title(参考訳): MDF-MLLM:背景画像の文脈認識のためのクロスモーダルな特徴アライメントによる深層融合
- Authors: Jason Jordan, Mohammadreza Akbari Lor, Peter Koulen, Mei-Ling Shyu, Shu-Ching Chen,
- Abstract要約: 既存のマルチモーダル大言語モデル(MLLM)は網膜疾患の診断に不可欠な低レベルの空間的詳細を捉えるのに苦労することが多い。
このモデル開発と検証は、3つの公開データセットからコンパイルされた1,305個の画像テキストペアに対して行われた。
MDF-MLLMは、4つのU-Net層エンコーダからLLaMA 3.2 11B MLLM内のクロスアテンションブロックへのスキップ機能を統合する。
- 参考スコア(独自算出の注目度): 0.32622301272834514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study aimed to enhance disease classification accuracy from retinal fundus images by integrating fine-grained image features and global textual context using a novel multimodal deep learning architecture. Existing multimodal large language models (MLLMs) often struggle to capture low-level spatial details critical for diagnosing retinal diseases such as glaucoma, diabetic retinopathy, and retinitis pigmentosa. This model development and validation study was conducted on 1,305 fundus image-text pairs compiled from three public datasets (FIVES, HRF, and StoneRounds), covering acquired and inherited retinal diseases, and evaluated using classification accuracy and F1-score. The MDF-MLLM integrates skip features from four U-Net encoder layers into cross-attention blocks within a LLaMA 3.2 11B MLLM. Vision features are patch-wise projected and fused using scaled cross-attention and FiLM-based U-Net modulation. Baseline MLLM achieved 60% accuracy on the dual-type disease classification task. MDF-MLLM, with both U-Net and MLLM components fully fine-tuned during training, achieved a significantly higher accuracy of 94%, representing a 56% improvement. Recall and F1-scores improved by as much as 67% and 35% over baseline, respectively. Ablation studies confirmed that the multi-depth fusion approach contributed to substantial gains in spatial reasoning and classification, particularly for inherited diseases with rich clinical text. MDF-MLLM presents a generalizable, interpretable, and modular framework for fundus image classification, outperforming traditional MLLM baselines through multi-scale feature fusion. The architecture holds promise for real-world deployment in clinical decision support systems. Future work will explore synchronized training techniques, a larger pool of diseases for more generalizability, and extending the model for segmentation tasks.
- Abstract(参考訳): 本研究は, 網膜底部画像からの疾患分類精度の向上を目的として, 新たなマルチモーダル深層学習アーキテクチャを用いて, 微細な画像特徴とグローバルテキストコンテキストを統合することを目的とした。
既存の多モード大言語モデル(MLLM)は、緑内障、糖尿病網膜症、網膜色素変性症などの網膜疾患の診断に重要な低レベルの空間的詳細を捉えるのに苦労することが多い。
The model development and validation study was conducted on 1,305 fundus image-text pairs compiled from three public datasets (FIVES, HRF, and StoneRounds)。
MDF-MLLMは、4つのU-Netエンコーダ層からのスキップ機能をLLaMA 3.2 11B MLLM内のクロスアテンションブロックに統合する。
ビジョン機能はパッチ単位で投影され、スケールされたクロスアテンションとFiLMベースのU-Net変調を用いて融合される。
ベースラインMLLMは二重型疾患分類タスクにおいて60%の精度を達成した。
MDF-MLLMはトレーニング中にU-NetとMLLMのコンポーネントを完全に微調整し、94%の精度で56%の改善を実現した。
リコールとF1スコアはそれぞれ67%、ベースラインは35%改善した。
アブレーション研究により,多層核融合法は空間的推論や分類において有意な進歩をもたらしたことが確認された。
MDF-MLLMは、基本画像分類のための一般化可能な、解釈可能な、モジュラーなフレームワークであり、マルチスケールな特徴融合によって従来のMLLMベースラインを上回っている。
このアーキテクチャは、臨床意思決定支援システムにおける現実世界の展開を約束する。
今後の研究では、同期トレーニング技術、より一般化可能な病気のプール、セグメンテーションタスクのモデルの拡張などについて検討する予定である。
関連論文リスト
- Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents [55.82787697101274]
Bifrost-1は、事前訓練されたマルチモーダルLLM(MLLM)と拡散モデルをブリッジする統合フレームワークである。
予め訓練したMLLMと拡散モデルとパッチレベルのCLIPラプタントをシームレスに統合することにより,高忠実度制御可能な画像生成を実現する。
実験の結果,Bifrost-1は視覚的忠実度やマルチモーダル理解の観点から,従来の手法と同等あるいは優れた性能を達成できた。
論文 参考訳(メタデータ) (2025-08-08T02:38:47Z) - Constructing Ophthalmic MLLM for Positioning-diagnosis Collaboration Through Clinical Cognitive Chain Reasoning [0.5360375691077625]
FundusExpertは眼科固有のMLLMであり、位置決め-診断推論機能を備えている。
FundusGenはインテリジェントなFundus-Engineシステムを通じて構築されたデータセットである。
論文 参考訳(メタデータ) (2025-07-23T14:19:30Z) - Benchmarking histopathology foundation models in a multi-center dataset for skin cancer subtyping [1.927195358774599]
大規模なドメイン内データセットの事前トレーニングは、履歴病理基盤モデル(FM)にタスクに依存しないデータ表現を学習する能力を与える。
計算病理学では、スライド全体の自動解析には、スライドのギガピクセルスケールのため、複数のインスタンス学習(MIL)フレームワークが必要である。
本研究は,MIL分類フレームワーク内のパッチレベルの特徴抽出器として,病理組織学的FMを評価するための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-06-23T14:12:16Z) - Zero-Shot Multi-modal Large Language Model v.s. Supervised Deep Learning: A Comparative Study on CT-Based Intracranial Hemorrhage Subtyping [10.890363916095737]
非造影CTによる頭蓋内出血(ICH)のタイムリー同定は予後予測と治療的判断に重要である。
本研究は、ICHバイナリ分類およびサブタイプにおける従来のディープラーニング手法と比較して、ゼロショットマルチモーダル大言語モデル(MLLM)の性能を評価する。
論文 参考訳(メタデータ) (2025-05-14T09:54:46Z) - DMS-Net:Dual-Modal Multi-Scale Siamese Network for Binocular Fundus Image Classification [8.86559854172874]
両眼網膜画像分類のためのデュアルモードマルチスケールシアムネットワークであるDMS-Netを提案する。
このフレームワークは、両眼の眼底画像から深い意味的特徴を同時に抽出するために、重量共有型ResNet-152アーキテクチャを使用している。
精度は82.9%、リコールは84.5%、コーエンのカッパ係数は83.2%である。
論文 参考訳(メタデータ) (2025-04-25T03:27:28Z) - LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。
具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。
また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文 参考訳(メタデータ) (2025-03-10T16:05:40Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - Aligning Large Language Models and Geometric Deep Models for Protein Representation [57.59506688299817]
遅延表現アライメントは、異なるモダリティからの埋め込みを共有空間にマッピングするために使用され、しばしば大きな言語モデル(LLM)の埋め込み空間と一致している。
プリミティブなタンパク質中心の大規模言語モデル (MLLM) が登場したが、それらは表現の至る所で最適なアライメントの実践に関する根本的な理解が欠如しているアプローチに大きく依存している。
本研究では,タンパク質領域におけるLLMと幾何学的深部モデル(GDM)のマルチモーダル表現のアライメントについて検討する。
本研究は, モデルおよびタンパク質の観点からのアライメント要因について検討し, 現行アライメント手法の課題を特定し, アライメントプロセスを改善するための戦略を提案する。
論文 参考訳(メタデータ) (2024-11-08T04:15:08Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。