論文の概要: Advancing Multimodal Medical Capabilities of Gemini
- arxiv url: http://arxiv.org/abs/2405.03162v1
- Date: Mon, 6 May 2024 04:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 14:45:09.805605
- Title: Advancing Multimodal Medical Capabilities of Gemini
- Title(参考訳): ジェミニのマルチモーダル医療能力の向上
- Authors: Lin Yang, Shawn Xu, Andrew Sellergren, Timo Kohlberger, Yuchen Zhou, Ira Ktena, Atilla Kiraly, Faruk Ahmed, Farhad Hormozdiari, Tiam Jaroensri, Eric Wang, Ellery Wulczyn, Fayaz Jamil, Theo Guidroz, Chuck Lau, Siyuan Qiao, Yun Liu, Akshay Goel, Kendall Park, Arnav Agharwal, Nick George, Yang Wang, Ryutaro Tanno, David G. T. Barrett, Wei-Hung Weng, S. Sara Mahdavi, Khaled Saab, Tao Tu, Sreenivasa Raju Kalidindi, Mozziyar Etemadi, Jorge Cuadros, Gregory Sorensen, Yossi Matias, Katherine Chou, Greg Corrado, Joelle Barral, Shravya Shetty, David Fleet, S. M. Ali Eslami, Daniel Tse, Shruthi Prabhakara, Cory McLean, Dave Steiner, Rory Pilgrim, Christopher Kelly, Shekoofeh Azizi, Daniel Golden,
- Abstract要約: 我々は、ジェミニのコア能力を継承する新しいメドジェニーニ族の中で、いくつかのモデルを開発する。
Med-Gemini-2Dは、専門家の評価に基づいて、AIベースの胸部X線(CXR)レポート生成の新しい標準を設定する。
Med-Gemini-3D は3次元CT(Computerd tomography)ボリュームのための最初の大規模マルチモーダル・モデルに基づくレポート生成である。
- 参考スコア(独自算出の注目度): 32.28727204275662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many clinical tasks require an understanding of specialized data, such as medical images and genomics, which is not typically found in general-purpose large multimodal models. Building upon Gemini's multimodal models, we develop several models within the new Med-Gemini family that inherit core capabilities of Gemini and are optimized for medical use via fine-tuning with 2D and 3D radiology, histopathology, ophthalmology, dermatology and genomic data. Med-Gemini-2D sets a new standard for AI-based chest X-ray (CXR) report generation based on expert evaluation, exceeding previous best results across two separate datasets by an absolute margin of 1% and 12%, where 57% and 96% of AI reports on normal cases, and 43% and 65% on abnormal cases, are evaluated as "equivalent or better" than the original radiologists' reports. We demonstrate the first ever large multimodal model-based report generation for 3D computed tomography (CT) volumes using Med-Gemini-3D, with 53% of AI reports considered clinically acceptable, although additional research is needed to meet expert radiologist reporting quality. Beyond report generation, Med-Gemini-2D surpasses the previous best performance in CXR visual question answering (VQA) and performs well in CXR classification and radiology VQA, exceeding SoTA or baselines on 17 of 20 tasks. In histopathology, ophthalmology, and dermatology image classification, Med-Gemini-2D surpasses baselines across 18 out of 20 tasks and approaches task-specific model performance. Beyond imaging, Med-Gemini-Polygenic outperforms the standard linear polygenic risk score-based approach for disease risk prediction and generalizes to genetically correlated diseases for which it has never been trained. Although further development and evaluation are necessary in the safety-critical medical domain, our results highlight the potential of Med-Gemini across a wide range of medical tasks.
- Abstract(参考訳): 多くの臨床的タスクは、医学画像やゲノム学のような専門的なデータを理解することを必要とし、一般的に汎用的な大規模マルチモーダルモデルでは見つからない。
Geminiのマルチモーダルモデルを構築し、Geminiのコア能力を継承し、2Dおよび3D放射線学、病理学、眼科、皮膚学、ゲノムデータによる微調整により医療用途に最適化された新しいMed-Geminiファミリー内にいくつかのモデルを開発する。
Med-Gemini-2Dは、専門家による評価に基づいて、AIベースの胸部X線(CXR)レポート生成の新しい標準を設定しており、2つの別々のデータセットで過去の最良の結果を1%と12%で上回り、通常の症例におけるAIレポートの57%と96%、異常症例の43%と65%は、元の放射線学者の報告よりも「同等かそれ以上」と評価されている。
我々は,Med-Gemini-3Dを用いた3次元CTボリュームの大規模マルチモーダルモデルベースレポート生成を初めて実施し,AIレポートの53%が臨床的に許容できると考えられた。
レポート生成の他に、Med-Gemini-2Dは、CXR視覚質問応答(VQA)における以前の最高のパフォーマンスを上回り、20タスク中17タスクのSoTAを超える、CXR分類と放射線学のVQAでよく機能する。
Med-Gemini-2Dは、病理、眼科、皮膚画像分類において、20タスク中18タスクのベースラインを超え、タスク固有のモデルパフォーマンスにアプローチする。
画像以外にも、Med-Gemini-Polygenicは、病気のリスク予測のための標準的な線形ポリジェニックリスクスコアに基づくアプローチを上回り、訓練されたことのない遺伝的に相関した疾患に一般化する。
安全上重要な医療領域では,さらなる開発と評価が必要であるが,本研究は幅広い医療課題におけるメドジェニーニの可能性を強調した。
関連論文リスト
- 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - MGH Radiology Llama: A Llama 3 70B Model for Radiology [27.575944159578786]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。
Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。
従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文 参考訳(メタデータ) (2024-08-13T01:30:03Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - A Concept-based Interpretable Model for the Diagnosis of Choroid
Neoplasias using Multimodal Data [28.632437578685842]
我々は成人で最も多い眼がんである脈絡膜新生症(5.1%)に焦点を当てた。
本研究は,3種類の脈絡膜腫瘍を識別する概念に基づく解釈可能なモデルを提案する。
注目すべきは、このモデルがブラックボックスモデルに匹敵するF1スコアの0.91を達成する一方で、ジュニア医師の診断精度を42%向上させることである。
論文 参考訳(メタデータ) (2024-03-08T07:15:53Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。
Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。
モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (2023-07-26T17:52:22Z) - A Novel Automated Classification and Segmentation for COVID-19 using 3D
CT Scans [5.5957919486531935]
新型コロナウイルス(COVID-19)による肺のCT画像では、地上ガラスの濁度が専門的な診断を必要とする最も一般的な発見である。
一部の研究者は、専門知識の欠如による専門的診断専門医の代替となる、関連するDLモデルを提案する。
肺病変の分類では, 新型コロナウイルス, 肺炎, 正常の3種類で94.52%の精度が得られた。
論文 参考訳(メタデータ) (2022-08-04T22:14:18Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。