論文の概要: Capabilities of Gemini Models in Medicine
- arxiv url: http://arxiv.org/abs/2404.18416v2
- Date: Wed, 1 May 2024 17:12:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 10:59:25.993638
- Title: Capabilities of Gemini Models in Medicine
- Title(参考訳): 医療におけるジェミニモデルの能力
- Authors: Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Katherine Chou, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan,
- Abstract要約: 医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
- 参考スコア(独自算出の注目度): 100.60391771032887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Excellence in a wide variety of medical applications poses considerable challenges for AI, requiring advanced reasoning, access to up-to-date medical knowledge and understanding of complex multimodal data. Gemini models, with strong general capabilities in multimodal and long-context reasoning, offer exciting possibilities in medicine. Building on these core strengths of Gemini, we introduce Med-Gemini, a family of highly capable multimodal models that are specialized in medicine with the ability to seamlessly use web search, and that can be efficiently tailored to novel modalities using custom encoders. We evaluate Med-Gemini on 14 medical benchmarks, establishing new state-of-the-art (SoTA) performance on 10 of them, and surpass the GPT-4 model family on every benchmark where a direct comparison is viable, often by a wide margin. On the popular MedQA (USMLE) benchmark, our best-performing Med-Gemini model achieves SoTA performance of 91.1% accuracy, using a novel uncertainty-guided search strategy. On 7 multimodal benchmarks including NEJM Image Challenges and MMMU (health & medicine), Med-Gemini improves over GPT-4V by an average relative margin of 44.5%. We demonstrate the effectiveness of Med-Gemini's long-context capabilities through SoTA performance on a needle-in-a-haystack retrieval task from long de-identified health records and medical video question answering, surpassing prior bespoke methods using only in-context learning. Finally, Med-Gemini's performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education. Taken together, our results offer compelling evidence for Med-Gemini's potential, although further rigorous evaluation will be crucial before real-world deployment in this safety-critical domain.
- Abstract(参考訳): 幅広い医療応用における卓越性は、高度な推論、最新の医療知識へのアクセス、複雑なマルチモーダルデータの理解といった、AIに重大な課題をもたらす。
マルチモーダルおよび長文推論において強力な汎用能力を持つジェミニモデルは、医学においてエキサイティングな可能性をもたらす。
Geminiの中核となる強みを生かしたMed-Geminiは,Web検索をシームレスに利用し,カスタムエンコーダを用いた新しいモダリティに効率的に適合させることができる,医療専門の高度なマルチモーダルモデルのファミリーである。
我々は14のベンチマークでMed-Geminiを評価し、そのうち10のベンチマークで新しい最先端(SoTA)性能を確立し、直接比較が可能なベンチマークでGPT-4モデルファミリを上回った。
人気の高いMedQA(USMLE)ベンチマークでは、新しい不確実性誘導探索戦略を用いて、最高の性能のMed-GeminiモデルでSoTAの精度91.1%を達成した。
NEJM Image ChallengesやMMMU (Health & Medicine)を含む7つのマルチモーダルベンチマークでは、メドジェニーニはGPT-4Vよりも44.5%改善している。
本研究は,Med-Geminiの長期的コンテキスト能力が,長期未確認健康記録と医療ビデオ質問応答から,文脈内学習のみを用いた事前のベスポーク手法を超越して,ニードル・イン・ア・ヘイスタック検索タスクに与える影響を実証するものである。
最後に、Med-Geminiのパフォーマンスは、マルチモーダル医療対話、医学研究、教育における有望な可能性の実証とともに、医療テキスト要約のようなタスクに関する人間の専門家を上回ることで、現実世界の実用性を示唆している。
まとめると、我々の結果は、Med-Geminiの潜在的な可能性を示す説得力のある証拠を提供するが、この安全クリティカルな領域に現実世界が配備される前には、さらなる厳密な評価が不可欠である。
関連論文リスト
- HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale [30.688320824225947]
私たちは13万の医療用VQAサンプルでPubMedVisionデータセットを作成します。
PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionを訓練し、医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-27T15:50:41Z) - Advancing Multimodal Medical Capabilities of Gemini [32.28727204275662]
我々は、ジェミニのコア能力を継承する新しいメドジェニーニ族の中で、いくつかのモデルを開発する。
Med-Gemini-2Dは、専門家の評価に基づいて、AIベースの胸部X線(CXR)レポート生成の新しい標準を設定する。
Med-Gemini-3D は3次元CT(Computerd tomography)ボリュームのための最初の大規模マルチモーダル・モデルに基づくレポート生成である。
論文 参考訳(メタデータ) (2024-05-06T04:44:22Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。
Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。
モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (2023-07-26T17:52:22Z) - Towards Expert-Level Medical Question Answering with Large Language
Models [16.882775912583355]
大規模言語モデル (LLMs) は医学的質問応答において大きな進歩をもたらした。
ここでは、基礎改善(PaLM2)、医療領域の細かな改善、戦略の推進を組み合わせ、ギャップを埋めるMedPaLM 2を提案する。
また, MedMC-ofQA, PubMed, MMLUの臨床トピックスデータセットに近づいたり, 最先端に近づいたりした。
論文 参考訳(メタデータ) (2023-05-16T17:11:29Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。