論文の概要: Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.11217v1
- Date: Sat, 17 Feb 2024 08:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:36:32.368793
- Title: Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models
- Title(参考訳): asclepius:医療用マルチモーダル大言語モデルのためのスペクトル評価ベンチマーク
- Authors: Wenxuan Wang, Yihang Su, Jingyuan Huan, Jie Liu, Wenting Chen, Yudi
Zhang, Cheng-Yi Li, Kao-Jung Chang, Xiaohan Xin, Linlin Shen, Michael R. Lyu
- Abstract要約: 医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
- 参考スコア(独自算出の注目度): 59.60384461302662
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The significant breakthroughs of Medical Multi-Modal Large Language Models
(Med-MLLMs) renovate modern healthcare with robust information synthesis and
medical decision support. However, these models are often evaluated on
benchmarks that are unsuitable for the Med-MLLMs due to the intricate nature of
the real-world diagnostic frameworks, which encompass diverse medical
specialties and involve complex clinical decisions. Moreover, these benchmarks
are susceptible to data leakage, since Med-MLLMs are trained on large
assemblies of publicly available data. Thus, an isolated and clinically
representative benchmark is highly desirable for credible Med-MLLMs evaluation.
To this end, we introduce Asclepius, a novel Med-MLLM benchmark that rigorously
and comprehensively assesses model capability in terms of: distinct medical
specialties (cardiovascular, gastroenterology, etc.) and different diagnostic
capacities (perception, disease analysis, etc.). Grounded in 3 proposed core
principles, Asclepius ensures a comprehensive evaluation by encompassing 15
medical specialties, stratifying into 3 main categories and 8 sub-categories of
clinical tasks, and exempting from train-validate contamination. We further
provide an in-depth analysis of 6 Med-MLLMs and compare them with 5 human
specialists, providing insights into their competencies and limitations in
various medical contexts. Our work not only advances the understanding of
Med-MLLMs' capabilities but also sets a precedent for future evaluations and
the safe deployment of these models in clinical environments. We launch and
maintain a leaderboard for community assessment of Med-MLLM capabilities
(https://asclepius-med.github.io/).
- Abstract(参考訳): 医療多モード大規模言語モデル(Med-MLLMs)の重要なブレークスルーは、堅牢な情報合成と医療決定支援によって現代医療を革新する。
しかしながら、これらのモデルは、様々な医学的専門分野を包含し、複雑な臨床的決定を伴う現実世界の診断フレームワークの複雑な性質のため、Med-MLLMに適さないベンチマークでしばしば評価される。
さらに、これらのベンチマークは、Med-MLLMは公開データの大規模なアセンブリで訓練されているため、データ漏洩の影響を受けやすい。
したがって, 信頼性の高いmed-mllms評価には, 単離および臨床的に代表されるベンチマークが望ましい。
そこで本研究では,Asclepiusという新しいMed-MLLMベンチマークを導入し,異なる医療専門分野(心臓血管,胃腸科など)と異なる診断能力(知覚,疾患解析など)の観点から,モデル能力の厳密かつ包括的に評価する。
3つの基本原則に基づいて、アスクレピウスは15の専門分野を包含し、臨床業務の3つの主要なカテゴリと8つのサブカテゴリに区分し、列車の無効な汚染を免除することで包括的な評価を確実にする。
さらに、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較し、その能力と様々な医学的文脈における限界について考察する。
我々の研究は、Med-MLLMsの能力の理解を深めるだけでなく、将来の評価や臨床環境におけるこれらのモデルの安全な展開の先例となる。
我々は、Med-MLLM機能のコミュニティアセスメントのためのリーダーボード(https://asclepius-med.github.io/)を立ち上げ、維持する。
関連論文リスト
- MedKP: Medical Dialogue with Knowledge Enhancement and Clinical Pathway
Encoding [48.348511646407026]
本稿では,知識向上と臨床パスウェイ符号化フレームワークを用いた医療対話について紹介する。
このフレームワークは、医療知識グラフを介して外部知識増強モジュールと、医療機関および医師の行動を介して、内部臨床経路をコードする。
論文 参考訳(メタデータ) (2024-03-11T10:57:45Z) - AI Hospital: Interactive Evaluation and Collaboration of LLMs as Intern
Doctors for Clinical Diagnosis [72.50974375416239]
リアルタイムのインタラクティブな診断環境を構築するために設計されたフレームワークであるAI Hospitalを紹介する。
様々な大規模言語モデル(LLM)は、対話的診断のためのインターン医師として機能する。
我々は,医療部長の監督の下で,反復的な議論と紛争解決プロセスを含む協調的なメカニズムを導入する。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for
Medical LVLM [50.58232769384052]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - MedAgents: Large Language Models as Collaborators for Zero-shot Medical
Reasoning [37.34662825863483]
大規模言語モデル(LLM)は医療や医療において重大な障壁に直面している。
本稿では,LLMをベースとしたエージェントをロールプレイング環境で活用する医療分野のための,新しい多分野連携(MC)フレームワークを提案する。
私たちの研究は、現実世界のシナリオに適用可能なゼロショット設定に焦点を当てています。
論文 参考訳(メタデータ) (2023-11-16T11:47:58Z) - Emulating Human Cognitive Processes for Expert-Level Medical
Question-Answering with Large Language Models [0.23463422965432823]
BooksMedはLarge Language Model(LLM)に基づいた新しいフレームワークである
人間の認知プロセスをエミュレートして、エビデンスベースの信頼性の高い応答を提供する。
本稿では、専門家レベルのオープンエンドな質問からなるベンチマークであるExpertMedQAを紹介する。
論文 参考訳(メタデータ) (2023-10-17T13:39:26Z) - Integrating UMLS Knowledge into Large Language Models for Medical
Question Answering [18.06960842747575]
大規模言語モデル(LLM)は強力なテキスト生成能力を示し、医療分野に前例のない革新をもたらした。
我々は、医療コミュニティにより良いサービスを提供することを目的として、UMLS(Unified Medical Language System)に基づく拡張LLMフレームワークを開発する。
ベンチマークモデルとしてLLaMa2-13b-chatとChatGPT-3.5を採用し、LiveQAテストセットから104の質問に対してROUGEスコアとBERTScoreを用いて自動評価を行う。
論文 参考訳(メタデータ) (2023-10-04T12:50:26Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。