論文の概要: MedGemma 1.5 Technical Report
- arxiv url: http://arxiv.org/abs/2604.05081v1
- Date: Mon, 06 Apr 2026 18:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.441663
- Title: MedGemma 1.5 Technical Report
- Title(参考訳): MedGemma 1.5テクニカルレポート
- Authors: Andrew Sellergren, Chufan Gao, Fereshteh Mahvar, Timo Kohlberger, Fayaz Jamil, Madeleine Traverse, Alberto Tono, Bashir Sadjad, Lin Yang, Charles Lau, Liron Yatziv, Tiffany Chen, Bram Sterling, Kenneth Philbrick, Richa Tiwari, Yun Liu, Madhuram Jajoo, Chandrashekar Sankarapu, Swapnil Vispute, Harshad Purandare, Abhishek Bijay Mishra, Sam Schmidgall, Tao Tu, Anil Palepu, Chunjong Park, Tim Strother, Rahul Thapa, Yong Cheng, Preeti Singh, Kat Black, Yossi Matias, Katherine Chou, Avinatan Hassidim, Kavi Goel, Joelle Barral, Tris Warkentin, Shravya Shetty, Dale Webster, Sunny Virmani, David F. Steiner, Can Kirmizibayrak, Daniel Golden,
- Abstract要約: MedGemma 1.5は、高次元医用画像(CT/MRIボリュームと病理組織像全体)の統合、バウンディングボックスによる解剖学的局在、マルチタイムポイント胸部X線分析、医療文書理解の改善(レポート、電子健康記録)により、MedGemma 1に拡張する。
MedGemma 1 4Bと比較すると、MedGemma 1.5 4Bはこれらの領域で有意な増加を示し、3D MRI条件分類の精度は11%向上し、3D CT条件分類の精度は3%向上した(絶対改善)。
- 参考スコア(独自算出の注目度): 16.65670936004328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MedGemma 1.5 4B, the latest model in the MedGemma collection. MedGemma 1.5 expands on MedGemma 1 by integrating additional capabilities: high-dimensional medical imaging (CT/MRI volumes and histopathology whole slide images), anatomical localization via bounding boxes, multi-timepoint chest X-ray analysis, and improved medical document understanding (lab reports, electronic health records). We detail the innovations required to enable these modalities within a single architecture, including new training data, long-context 3D volume slicing, and whole-slide pathology sampling. Compared to MedGemma 1 4B, MedGemma 1.5 4B demonstrates significant gains in these new areas, improving 3D MRI condition classification accuracy by 11% and 3D CT condition classification by 3% (absolute improvements). In whole slide pathology imaging, MedGemma 1.5 4B achieves a 47% macro F1 gain. Additionally, it improves anatomical localization with a 35% increase in Intersection over Union on chest X-rays and achieves a 4% macro accuracy for longitudinal (multi-timepoint) chest x-ray analysis. Beyond its improved multimodal performance over MedGemma 1, MedGemma 1.5 improves on text-based clinical knowledge and reasoning, improving by 5% on MedQA accuracy and 22% on EHRQA accuracy. It also achieves an average of 18% macro F1 on 4 different lab report information extraction datasets (EHR Datasets 2, 3, 4, and Mendeley Clinical Laboratory Test Reports). Taken together, MedGemma 1.5 serves as a robust, open resource for the community, designed as an improved foundation on which developers can create the next generation of medical AI systems. Resources and tutorials for building upon MedGemma 1.5 can be found at https://goo.gle/MedGemma.
- Abstract(参考訳): 我々は,MedGemmaコレクションの最新モデルであるMedGemma 1.5 4Bを紹介する。
MedGemma 1.5は、高次元医用画像(CT/MRIボリュームと病理組織像全体)、バウンディングボックスによる解剖学的局在、マルチタイムポイント胸部X線分析、医療文書理解の改善(ラベルレポート、電子健康記録)などの機能を統合することで、MedGemma 1に拡張されている。
新しいトレーニングデータ、長いコンテキストの3Dボリュームスライシング、全スライディングの病理サンプルなど、単一のアーキテクチャ内でこれらのモダリティを実現するために必要なイノベーションについて詳述する。
MedGemma 1 4Bと比較すると、MedGemma 1.5 4Bはこれらの領域で有意な増加を示し、3D MRI条件分類の精度は11%向上し、3D CT条件分類の精度は3%向上した(絶対改善)。
スライド画像全体において、MedGemma 1.5 4Bは47%のマクロF1ゲインを達成している。
さらに, 胸部X線に対する交叉断面積の35%増加とともに解剖学的局在を改善し, 縦(複数点)胸部X線解析において4%のマクロ精度が得られた。
MedGemma 1のマルチモーダル性能の改善に加えて、MedGemma 1.5はテキストベースの臨床知識と推論を改善し、MedQAの精度は5%向上し、EHRQAの精度は22%向上した。
また、4つの実験室報告情報抽出データセット(EHRデータセット 2, 3, 4, and Mendeley Clinical Laboratory Test Reports)の平均18%のマクロF1を達成している。
MedGemma 1.5はコミュニティにとって堅牢でオープンなリソースであり、開発者が次世代の医療AIシステムを構築するための改善された基盤として設計されている。
MedGemma 1.5 上に構築するリソースとチュートリアルは https://goo.gle/MedGemma にある。
関連論文リスト
- Radiology Report Generation with Layer-Wise Anatomical Attention [35.18016233072556]
我々は胸部X線レポートのFinderingsセクションを生成するコンパクトな画像からテキストへのアーキテクチャを提案する。
このモデルは凍結した自己蒸留とNo Labels v3 (DINOv3) Vision Transformer (ViT)エンコーダとGenerative Pre-trained Transformer 2 (GPT-2)デコーダを組み合わせたものである。
論文 参考訳(メタデータ) (2025-12-18T18:17:57Z) - MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Cross-modality Attention Adapter: A Glioma Segmentation Fine-tuning
Method for SAM Using Multimodal Brain MR Images [7.8475485225910555]
マルチモーダルMRI脳画像におけるグリオーマセグメンテーションの課題を達成するために, 基礎モデルを微調整するために, マルチモーダル融合に基づく多モーダルアテンダアダプタを提案する。
提案法はDice 88.38%, Hausdorff 距離10.64 の最先端手法よりも優れており, グリオーマ治療用グリオーマ領域の分画にはDice が4%増加した。
論文 参考訳(メタデータ) (2023-07-03T15:55:18Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。