論文の概要: MedGemma Technical Report
- arxiv url: http://arxiv.org/abs/2507.05201v2
- Date: Tue, 08 Jul 2025 17:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 12:20:17.832463
- Title: MedGemma Technical Report
- Title(参考訳): メドジェマ技術報告
- Authors: Andrew Sellergren, Sahar Kazemzadeh, Tiam Jaroensri, Atilla Kiraly, Madeleine Traverse, Timo Kohlberger, Shawn Xu, Fayaz Jamil, Cían Hughes, Charles Lau, Justin Chen, Fereshteh Mahvar, Liron Yatziv, Tiffany Chen, Bram Sterling, Stefanie Anna Baby, Susanna Maria Baby, Jeremy Lai, Samuel Schmidgall, Lu Yang, Kejia Chen, Per Bjornsson, Shashir Reddy, Ryan Brush, Kenneth Philbrick, Howard Hu, Howard Yang, Richa Tiwari, Sunny Jansen, Preeti Singh, Yun Liu, Shekoofeh Azizi, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ramé, Morgane Riviere, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Edouard Yvinec, Michelle Casbon, Elena Buchatskaya, Jean-Baptiste Alayrac, Dmitry Lepikhin, Vlad Feinberg, Sebastian Borgeaud, Alek Andreev, Cassidy Hardin, Robert Dadashi, Léonard Hussenot, Armand Joulin, Olivier Bachem, Yossi Matias, Katherine Chou, Avinatan Hassidim, Kavi Goel, Clement Farabet, Joelle Barral, Tris Warkentin, Jonathon Shlens, David Fleet, Victor Cotruta, Omar Sanseviero, Gus Martins, Phoebe Kirk, Anand Rao, Shravya Shetty, David F. Steiner, Can Kirmizibayrak, Rory Pilgrim, Daniel Golden, Lin Yang,
- Abstract要約: MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
- 参考スコア(独自算出の注目度): 76.28035910388918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) has significant potential in healthcare applications, but its training and deployment faces challenges due to healthcare's diverse data, complex tasks, and the need to preserve privacy. Foundation models that perform well on medical tasks and require less task-specific tuning data are critical to accelerate the development of healthcare AI applications. We introduce MedGemma, a collection of medical vision-language foundation models based on Gemma 3 4B and 27B. MedGemma demonstrates advanced medical understanding and reasoning on images and text, significantly exceeding the performance of similar-sized generative models and approaching the performance of task-specific models, while maintaining the general capabilities of the Gemma 3 base models. For out-of-distribution tasks, MedGemma achieves 2.6-10% improvement on medical multimodal question answering, 15.5-18.1% improvement on chest X-ray finding classification, and 10.8% improvement on agentic evaluations compared to the base models. Fine-tuning MedGemma further improves performance in subdomains, reducing errors in electronic health record information retrieval by 50% and reaching comparable performance to existing specialized state-of-the-art methods for pneumothorax classification and histopathology patch classification. We additionally introduce MedSigLIP, a medically-tuned vision encoder derived from SigLIP. MedSigLIP powers the visual understanding capabilities of MedGemma and as an encoder achieves comparable or better performance than specialized medical image encoders. Taken together, the MedGemma collection provides a strong foundation of medical image and text capabilities, with potential to significantly accelerate medical research and development of downstream applications. The MedGemma collection, including tutorials and model weights, can be found at https://goo.gle/medgemma.
- Abstract(参考訳): 人工知能(AI)は医療アプリケーションにおいて大きな可能性を秘めているが、そのトレーニングとデプロイメントは、医療データの多様さ、複雑なタスク、プライバシーの保護の必要性による課題に直面している。
医療タスクでうまく機能し、タスク固有のチューニングデータが少ないファウンデーションモデルは、医療AIアプリケーションの開発を加速するために不可欠である。
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を示し、同様のサイズの生成モデルの性能をはるかに上回り、タスク固有のモデルの性能に近づきつつ、Gemma 3ベースモデルの一般的な機能を維持している。
アウト・オブ・ディストリビューションのタスクでは、MedGemmaは医療マルチモーダル質問応答の2.6-10%の改善、胸部X線検出分類の15.5-18.1%の改善、基礎モデルと比較してエージェント評価の10.8%の改善を達成している。
細調整のMedGemmaはサブドメインのパフォーマンスをさらに改善し、電子健康記録情報の検索におけるエラーを50%削減し、既存のニューモトラクス分類と病理組織学的パッチ分類のための最先端の手法に匹敵する性能に達した。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
MedSigLIPは、MedGemmaの視覚的理解能力を強化し、エンコーダとして、専門の医用画像エンコーダよりも同等または優れたパフォーマンスを達成する。
MedGemmaコレクションは、医用画像とテキスト機能の強力な基盤を提供し、医療研究と下流アプリケーションの開発を著しく加速する可能性がある。
チュートリアルやモデルウェイトを含むMedGemmaコレクションはhttps://goo.gle/medgemma.com/medgemmaで見ることができる。
関連論文リスト
- MedFormer: Hierarchical Medical Vision Transformer with Content-Aware Dual Sparse Selection Attention [1.474723404975345]
MedFormerは、2つの重要なアイデアを持つ効率的な医療ビジョントランスフォーマーである。
まず、様々な医用画像認識タスクのための多用途バックボーンとしてピラミッドスケーリング構造を用いる。
第2に、コンテンツ認識による計算効率の向上を目的とした、新しいDual Sparse Selection Attention (DSSA)を導入する。
論文 参考訳(メタデータ) (2025-07-03T09:51:45Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - MedBridge: Bridging Foundation Vision-Language Models to Medical Image Diagnosis [10.082738539201804]
最近の視覚言語基盤モデルは、自然画像分類の最先端結果を提供するが、ドメインシフトによる医用画像に干渉する。
MedBridgeは,医用画像の正確な診断のためにトレーニング済みのVLMを再利用した,軽量なマルチモーダル適応フレームワークである。
MedBridgeはマルチラベル胸部疾患の診断において最先端のVLM適応法と比較して6~15%改善した。
論文 参考訳(メタデータ) (2025-05-27T19:37:51Z) - Agentic Medical Knowledge Graphs Enhance Medical Question Answering: Bridging the Gap Between LLMs and Evolving Medical Knowledge [6.977177904883792]
AMG-RAGは医療知識グラフの構築と継続的な更新を自動化するフレームワークである。
推論を統合し、PubMedやWikiSearchといった現在の外部証拠を検索する。
MEDQAのF1スコアは74.1%、MEDMCQAの精度は66.34パーセントで、同等のモデルと10倍から100倍のモデルの両方を上回っている。
論文 参考訳(メタデータ) (2025-02-18T16:29:45Z) - MedMax: Mixed-Modal Instruction Tuning for Training Biomedical Assistants [28.04215981636089]
混合モーダル基礎モデルのための大規模マルチモーダルバイオメディカルインストラクションチューニングデータセットであるMedMaxについて述べる。
1.47万のインスタンスを持つMedMaxは、インターリーブ画像テキスト生成、バイオメディカル画像キャプションと生成、ビジュアルチャット、レポート理解など、さまざまなタスクを含んでいる。
我々は、MedMaxデータセットの混合モーダル基礎モデルを微調整し、大幅なパフォーマンス改善を実現した。
論文 参考訳(メタデータ) (2024-12-17T08:30:00Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。