論文の概要: Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.11217v1
- Date: Sat, 17 Feb 2024 08:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:36:32.368793
- Title: Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models
- Title(参考訳): asclepius:医療用マルチモーダル大言語モデルのためのスペクトル評価ベンチマーク
- Authors: Wenxuan Wang, Yihang Su, Jingyuan Huan, Jie Liu, Wenting Chen, Yudi
Zhang, Cheng-Yi Li, Kao-Jung Chang, Xiaohan Xin, Linlin Shen, Michael R. Lyu
- Abstract要約: 医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
- 参考スコア(独自算出の注目度): 59.60384461302662
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The significant breakthroughs of Medical Multi-Modal Large Language Models
(Med-MLLMs) renovate modern healthcare with robust information synthesis and
medical decision support. However, these models are often evaluated on
benchmarks that are unsuitable for the Med-MLLMs due to the intricate nature of
the real-world diagnostic frameworks, which encompass diverse medical
specialties and involve complex clinical decisions. Moreover, these benchmarks
are susceptible to data leakage, since Med-MLLMs are trained on large
assemblies of publicly available data. Thus, an isolated and clinically
representative benchmark is highly desirable for credible Med-MLLMs evaluation.
To this end, we introduce Asclepius, a novel Med-MLLM benchmark that rigorously
and comprehensively assesses model capability in terms of: distinct medical
specialties (cardiovascular, gastroenterology, etc.) and different diagnostic
capacities (perception, disease analysis, etc.). Grounded in 3 proposed core
principles, Asclepius ensures a comprehensive evaluation by encompassing 15
medical specialties, stratifying into 3 main categories and 8 sub-categories of
clinical tasks, and exempting from train-validate contamination. We further
provide an in-depth analysis of 6 Med-MLLMs and compare them with 5 human
specialists, providing insights into their competencies and limitations in
various medical contexts. Our work not only advances the understanding of
Med-MLLMs' capabilities but also sets a precedent for future evaluations and
the safe deployment of these models in clinical environments. We launch and
maintain a leaderboard for community assessment of Med-MLLM capabilities
(https://asclepius-med.github.io/).
- Abstract(参考訳): 医療多モード大規模言語モデル(Med-MLLMs)の重要なブレークスルーは、堅牢な情報合成と医療決定支援によって現代医療を革新する。
しかしながら、これらのモデルは、様々な医学的専門分野を包含し、複雑な臨床的決定を伴う現実世界の診断フレームワークの複雑な性質のため、Med-MLLMに適さないベンチマークでしばしば評価される。
さらに、これらのベンチマークは、Med-MLLMは公開データの大規模なアセンブリで訓練されているため、データ漏洩の影響を受けやすい。
したがって, 信頼性の高いmed-mllms評価には, 単離および臨床的に代表されるベンチマークが望ましい。
そこで本研究では,Asclepiusという新しいMed-MLLMベンチマークを導入し,異なる医療専門分野(心臓血管,胃腸科など)と異なる診断能力(知覚,疾患解析など)の観点から,モデル能力の厳密かつ包括的に評価する。
3つの基本原則に基づいて、アスクレピウスは15の専門分野を包含し、臨床業務の3つの主要なカテゴリと8つのサブカテゴリに区分し、列車の無効な汚染を免除することで包括的な評価を確実にする。
さらに、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較し、その能力と様々な医学的文脈における限界について考察する。
我々の研究は、Med-MLLMsの能力の理解を深めるだけでなく、将来の評価や臨床環境におけるこれらのモデルの安全な展開の先例となる。
我々は、Med-MLLM機能のコミュニティアセスメントのためのリーダーボード(https://asclepius-med.github.io/)を立ち上げ、維持する。
関連論文リスト
- CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。
まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。
第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文 参考訳(メタデータ) (2024-06-24T02:25:48Z) - MedExQA: Medical Question Answering Benchmark with Multiple Explanations [2.2246416434538308]
本稿では,MedExQAについて紹介する。MedExQAは,医学的知識に関する大規模言語モデル (LLM) の理解を説明を通じて評価するための,医学的質問応答の新しいベンチマークである。
5つの異なる医療専門分野のデータセットを構築することで、現在の医療QAベンチマークの大きなギャップに対処する。
本研究は、医学LLMにおける説明可能性の重要性を強調し、分類精度以上のモデルを評価する効果的な方法論を提案し、特定の分野である音声言語病理学に光を当てる。
論文 参考訳(メタデータ) (2024-06-10T14:47:04Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。