論文の概要: Evaluating the Diagnostic Classification Ability of Multimodal Large Language Models: Insights from the Osteoarthritis Initiative
- arxiv url: http://arxiv.org/abs/2601.02443v1
- Date: Mon, 05 Jan 2026 13:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.674092
- Title: Evaluating the Diagnostic Classification Ability of Multimodal Large Language Models: Insights from the Osteoarthritis Initiative
- Title(参考訳): マルチモーダル大言語モデルの診断的分類能力の評価:関節症イニシアチブからの考察
- Authors: Li Wang, Xi Chen, XiangWen Deng, HuaHui Yi, ZeKun Jiang, Kang Li, Jian Li,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は,医療視覚的質問応答(VQA)とレポート生成において有望な性能を示す。
膝関節症(OA)分類におけるMLLMアーキテクチャの検討を行った。
- 参考スコア(独自算出の注目度): 14.002322217782364
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) show promising performance on medical visual question answering (VQA) and report generation, but these generation and explanation abilities do not reliably transfer to disease-specific classification. We evaluated MLLM architectures on knee osteoarthritis (OA) radiograph classification, which remains underrepresented in existing medical MLLM benchmarks, even though knee OA affects an estimated 300 to 400 million people worldwide. Through systematic ablation studies manipulating the vision encoder, the connector, and the large language model (LLM) across diverse training strategies, we measured each component's contribution to diagnostic accuracy. In our classification task, a trained vision encoder alone could outperform full MLLM pipelines in classification accuracy and fine-tuning the LLM provided no meaningful improvement over prompt-based guidance. And LoRA fine-tuning on a small, class-balanced dataset (500 images) gave better results than training on a much larger but class-imbalanced set (5,778 images), indicating that data balance and quality can matter more than raw scale for this task. These findings suggest that for domain-specific medical classification, LLMs are more effective as interpreters and report generators rather than as primary classifiers. Therefore, the MLLM architecture appears less suitable for medical image diagnostic classification tasks that demand high certainty. We recommend prioritizing vision encoder optimization and careful dataset curation when developing clinically applicable systems.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は,医療視覚的質問応答(VQA)とレポート生成において有望な性能を示すが,これらの生成と説明能力は疾患固有の分類に確実に移行しない。
人工膝関節置換術(OA)のX線分類は,OAが全世界で3~4億人に影響を及ぼすにもかかわらず,既往の医療MLLMベンチマークでは低値である。
視覚エンコーダ,コネクタ,大型言語モデル(LLM)を多種多様な訓練戦略で操作する系統的アブレーション研究を通じて,各コンポーネントの診断精度に対する貢献度を測定した。
分類作業において、訓練された視覚エンコーダだけで、分類精度において完全なMLLMパイプラインを上回り、LLMを微調整することで、プロンプトベースのガイダンスよりも有意義な改善が得られなかった。
そして、LoRAの小さなクラスバランスデータセット(500イメージ)の微調整により、はるかに大きくてもクラスバランスの悪いデータセット(5,778イメージ)のトレーニングよりも優れた結果が得られる。
これらの結果から, LLMは一次分類法よりも, インタプリタやレポートジェネレータとして有効であることが示唆された。
したがって、MLLMアーキテクチャは、高い確実性を要求する医用画像診断の分類タスクには適さないように見える。
臨床応用システムを開発する際には,視覚エンコーダの最適化と注意深いデータセットキュレーションの優先順位付けを推奨する。
関連論文リスト
- Applications of Small Language Models in Medical Imaging Classification with a Focus on Prompt Strategies [9.1953139634128]
本研究では,医療画像分類作業における小言語モデル(SLM)の性能について検討する。
NIH Chest X-ray データセットを用いて胸部X線位置を分類する作業において,複数のSLMを評価した。
以上の結果から,一部のSLMは良好なプロンプトで競合精度を達成できることがわかった。
論文 参考訳(メタデータ) (2025-08-18T21:48:45Z) - Point, Detect, Count: Multi-Task Medical Image Understanding with Instruction-Tuned Vision-Language Models [3.3091869879941687]
マルチタスク医療画像理解のための微調整視覚言語モデル(VLM)について検討する。
我々は各タスクを視覚言語推論に適した命令ベースのプロンプトに再構成する。
その結果,マルチタスクトレーニングにより堅牢性と精度が向上した。
論文 参考訳(メタデータ) (2025-05-22T13:18:44Z) - LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。
具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。
また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文 参考訳(メタデータ) (2025-03-10T16:05:40Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models [95.47808515575382]
ExGra-Medは、医療AIのビジョン言語統合のための新しいフレームワークである。
画像、命令応答、拡張キャプションを潜在空間にアライメントし、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
プレトレーニングデータの10%しか使用せず、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - SSLM: Self-Supervised Learning for Medical Diagnosis from MR Video [19.5917119072985]
本稿では,磁気共鳴(MR)ビデオクリップから空間解剖学的表現を学習するための自己教師型学習手法を提案する。
提案する前文モデルは意味のある空間的文脈不変表現を学習する。
異なる実験は、プリテキストモデルによって学習された特徴が下流タスクで説明可能なパフォーマンスを提供することを示している。
論文 参考訳(メタデータ) (2021-04-21T12:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。