論文の概要: Gemini Goes to Med School: Exploring the Capabilities of Multimodal
Large Language Models on Medical Challenge Problems & Hallucinations
- arxiv url: http://arxiv.org/abs/2402.07023v1
- Date: Sat, 10 Feb 2024 19:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 18:11:16.933241
- Title: Gemini Goes to Med School: Exploring the Capabilities of Multimodal
Large Language Models on Medical Challenge Problems & Hallucinations
- Title(参考訳): GeminiがMed Schoolへ:医療問題と幻覚に関する多モーダル大言語モデルの能力を探る
- Authors: Ankit Pal, Malaikannan Sankarasubbu
- Abstract要約: 我々はオープンソースとGoogleの新しいマルチモーダルLLMであるGeminiを総合的に評価した。
Geminiは能力を示したが、診断精度はMedPaLM 2やGPT-4のような最先端のモデルに遅れを取っていた。
ジェミニは幻覚、過信、知識のギャップに非常に敏感であり、不クリティカルに展開された場合のリスクを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have the potential to be valuable in the healthcare
industry, but it's crucial to verify their safety and effectiveness through
rigorous evaluation. For this purpose, we comprehensively evaluated both
open-source LLMs and Google's new multimodal LLM called Gemini across Medical
reasoning, hallucination detection, and Medical Visual Question Answering
tasks. While Gemini showed competence, it lagged behind state-of-the-art models
like MedPaLM 2 and GPT-4 in diagnostic accuracy. Additionally, Gemini achieved
an accuracy of 61.45\% on the medical VQA dataset, significantly lower than
GPT-4V's score of 88\%. Our analysis revealed that Gemini is highly susceptible
to hallucinations, overconfidence, and knowledge gaps, which indicate risks if
deployed uncritically. We also performed a detailed analysis by medical subject
and test type, providing actionable feedback for developers and clinicians. To
mitigate risks, we applied prompting strategies that improved performance.
Additionally, we facilitated future research and development by releasing a
Python module for medical LLM evaluation and establishing a dedicated
leaderboard on Hugging Face for medical domain LLMs. Python module can be found
at https://github.com/promptslab/RosettaEval
- Abstract(参考訳): 大きな言語モデルは医療業界で価値のある可能性があるが、厳格な評価を通じて安全性と有効性を検証することが重要である。
この目的のために,オープンソースのllmと,医学的推論,幻覚検出,医学的視覚的質問応答タスクにまたがる,googleの新しいマルチモーダルllmであるgeminiを総合的に評価した。
Geminiは能力を示したが、診断精度はMedPaLM 2やGPT-4といった最先端モデルに遅れを取っていた。
さらに、geminiは医療用vqaデータセットで61.45\%の精度を達成し、gpt-4vのスコア88\%を大きく下回った。
分析の結果,geminiは幻覚や自信過剰,知識ギャップに強い影響を受けやすいことが明らかとなった。
また, 被験者と検査タイプによる詳細な分析を行い, 開発者と臨床医に実用的なフィードバックを提供した。
リスクを軽減するため、私たちはパフォーマンスを向上させるプロンプト戦略を適用しました。
さらに,医療用LLM評価のためのPythonモジュールをリリースし,医療用LLMのためのHugging Face専用のリーダーボードを確立することにより,今後の研究開発を促進する。
Pythonモジュールはhttps://github.com/promptslab/RosettaEvalにある。
関連論文リスト
- CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models [92.04812189642418]
我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。
我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
論文 参考訳(メタデータ) (2024-06-10T04:07:09Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain [21.96129653695565]
LLM(Large Language Models)は、医学的意思決定タスクにおいて医師を支援し、修正することができる。
我々は,メディトロン,Llama2,MistralなどいくつかのLSMを評価し,これらのモデルが様々なシナリオで医師と効果的に相互作用する能力について分析した。
論文 参考訳(メタデータ) (2024-03-29T16:59:13Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise [78.54563675327198]
GeminiはGoogleの最新かつ最も有能なMLLMで、マルチモダリティのためにゼロから構築されています。
Geminiはマルチモーダル学習におけるGPT-4Vのリードポジションに挑戦できるか?
Gemini Proと最先端のGPT-4Vを比較して、最新のオープンソースMLLMであるSphinxとともに、その上限を評価する。
論文 参考訳(メタデータ) (2023-12-19T18:59:22Z) - An In-depth Look at Gemini's Language Abilities [49.897870833250494]
OpenAI GPTとGoogle Geminiモデルの能力を比較する。
この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。
Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:47:42Z) - NoMIRACL: Knowing When You Don't Know for Robust Multilingual
Retrieval-Augmented Generation [92.5132418788568]
Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
1) 幻覚率, 解答の幻覚傾向, 解答が非関連部分集合の通路に存在しない場合, および(ii) 誤差率, モデル不正確さを測定し, 関連する部分集合の通路を認識する。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Med-HALT: Medical Domain Hallucination Test for Large Language Models [0.0]
本研究では,大規模言語モデル(LLM)における幻覚による課題に焦点を当てた。
我々は,幻覚の評価と低減を目的とした新しいベンチマークとデータセット,Med-HALT (Medical Domain Hallucination Test) を提案する。
論文 参考訳(メタデータ) (2023-07-28T06:43:04Z) - Complex Mixer for MedMNIST Classification Decathlon [12.402054374952485]
ラベル空間における情報不足と不確実性の問題を軽減するための事前学習フレームワークを備えた複合ミキサー(C-Mixer)を開発した。
提案手法は,標準的なMedMNIST(v2)データセットと,カスタマイズされた弱教師付きデータセットの両方に驚くべき可能性を示す。
論文 参考訳(メタデータ) (2023-04-20T02:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。