論文の概要: MedGemma vs GPT-4: Open-Source and Proprietary Zero-shot Medical Disease Classification from Images
- arxiv url: http://arxiv.org/abs/2512.23304v1
- Date: Mon, 29 Dec 2025 08:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.444697
- Title: MedGemma vs GPT-4: Open-Source and Proprietary Zero-shot Medical Disease Classification from Images
- Title(参考訳): MedGemma vs GPT-4: 画像によるゼロショット医療疾患のオープンソースおよびプロプライエタリな分類
- Authors: Md. Sazzadul Islam Prottasha, Nabil Walid Rafi,
- Abstract要約: 本研究では、オープンソースエージェントMedGemmaとプロプライエタリな大規模マルチモーダルモデルGPT-4の2つの基本的異なるAIアーキテクチャの比較を示す。
Low-Rank Adaptation (LoRA) を用いて微調整したMedGemma-4b-itモデルでは, 平均試験精度80.37%を達成し, 優れた診断能力を示した。
これらの結果は, 臨床実践における幻覚の最小化にドメイン特異的微調整が不可欠であることを強調し, MedGemmaを複雑でエビデンスに基づく医学的推論のための高度なツールとして位置づけた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (LLMs) introduce an emerging paradigm for medical imaging by interpreting scans through the lens of extensive clinical knowledge, offering a transformative approach to disease classification. This study presents a critical comparison between two fundamentally different AI architectures: the specialized open-source agent MedGemma and the proprietary large multimodal model GPT-4 for diagnosing six different diseases. The MedGemma-4b-it model, fine-tuned using Low-Rank Adaptation (LoRA), demonstrated superior diagnostic capability by achieving a mean test accuracy of 80.37% compared to 69.58% for the untuned GPT-4. Furthermore, MedGemma exhibited notably higher sensitivity in high-stakes clinical tasks, such as cancer and pneumonia detection. Quantitative analysis via confusion matrices and classification reports provides comprehensive insights into model performance across all categories. These results emphasize that domain-specific fine-tuning is essential for minimizing hallucinations in clinical implementation, positioning MedGemma as a sophisticated tool for complex, evidence-based medical reasoning.
- Abstract(参考訳): LLM(Multimodal Large Language Models)は、広範な臨床知識のレンズを通してスキャンを解釈し、疾患分類への転換的アプローチを提供することによって、医療画像の新たなパラダイムを導入する。
本研究では,2つの基本的異なるAIアーキテクチャ – 特殊なオープンソースエージェントであるMedGemmaと,6つの異なる疾患を診断するためのプロプライエタリな大規模マルチモーダルモデルであるGPT-4 – を比較検討する。
Low-Rank Adaptation (LoRA) を用いて微調整したMedGemma-4b-itモデルでは、未調整のGPT-4では69.58%に対して平均テスト精度が80.37%であった。
さらに、MedGemmaは、がんや肺炎の検出など、高感度の臨床的タスクにおいて顕著に高い感度を示した。
混乱行列と分類レポートによる定量的分析は、あらゆるカテゴリーにわたるモデル性能に関する総合的な洞察を提供する。
これらの結果は, 臨床実践における幻覚の最小化にドメイン特異的微調整が不可欠であることを強調し, MedGemmaを複雑でエビデンスに基づく医学的推論のための高度なツールとして位置づけた。
関連論文リスト
- Beyond Diagnosis: Evaluating Multimodal LLMs for Pathology Localization in Chest Radiographs [33.80781505782195]
胸部X線写真における病理像の局所化能力について,2つの汎用大言語モデル (LLM) とドメイン固有モデル (MedGemma) を評価した。
GPT-5は49.7%、GPT-4(39.1%)とMedGemma(17.7%)の順で、いずれもタスク固有のCNNベースライン(59.9%)と放射線学ベンチマーク(80.1%)より低い。
GPT-4は, 解剖学的位置が固定された病理では良好に機能したが, 空間的変化に悩まされ, より頻度の低い予測が得られた。
論文 参考訳(メタデータ) (2025-09-22T16:54:23Z) - Performance of GPT-5 in Brain Tumor MRI Reasoning [4.156123728258067]
大規模言語モデル(LLM)は、画像解釈と自然言語推論を統合する視覚的質問応答(VQA)アプローチを可能にした。
GPT-4o, GPT-5-nano, GPT-5-mini, GPT-5を脳腫瘍VQAで評価した。
その結果, GPT-5-miniのマクロ平均精度は44.19%, GPT-5は43.71%, GPT-4oは41.49%, GPT-5-nanoは35.85%であった。
論文 参考訳(メタデータ) (2025-08-14T17:35:31Z) - Benchmarking and Explaining Deep Learning Cortical Lesion MRI Segmentation in Multiple Sclerosis [28.192924379673862]
多発性硬化症(MS)における生体マーカーとしての皮質病変(CL)の出現
本稿では,MRIにおけるCL検出とセグメンテーションの総合ベンチマークを提案する。
医療画像のセグメンテーションのために設計された自己構成のnnU-Netフレームワークを利用し、CL検出の改善に適した適応を提案する。
論文 参考訳(メタデータ) (2025-07-16T09:56:11Z) - Towards a Multimodal MRI-Based Foundation Model for Multi-Level Feature Exploration in Segmentation, Molecular Subtyping, and Grading of Glioma [0.2796197251957244]
Multi-Task S-UNETR(MTSUNET)モデルはBrainSegFounderモデルに基づいて構築された新しい基盤ベースのフレームワークである。
同時にグリオーマのセグメンテーション、組織学的サブタイプ、神経画像サブタイプを行う。
非侵襲的, パーソナライズされたグリオーマ管理の進展には, 予測精度と解釈可能性を改善することにより有意な可能性を秘めている。
論文 参考訳(メタデータ) (2025-03-10T01:27:09Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Holistic Evaluation of GPT-4V for Biomedical Imaging [113.46226609088194]
GPT-4Vはコンピュータビジョンのための人工知能の突破口である。
GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。
以上の結果より,GPT-4Vは異常や解剖学的認識に優れていたが,診断や局所化は困難であった。
論文 参考訳(メタデータ) (2023-11-10T18:40:44Z) - Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for
Multimodal Medical Diagnosis [59.35504779947686]
GPT-4VはOpenAIの最新のマルチモーダル診断モデルである。
評価対象は17の人体システムである。
GPT-4Vは、医用画像のモダリティと解剖学を区別する能力を示す。
疾患の診断と包括的報告作成において重大な課題に直面している。
論文 参考訳(メタデータ) (2023-10-15T18:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。