論文の概要: MedBookVQA: A Systematic and Comprehensive Medical Benchmark Derived from Open-Access Book
- arxiv url: http://arxiv.org/abs/2506.00855v1
- Date: Sun, 01 Jun 2025 06:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.702742
- Title: MedBookVQA: A Systematic and Comprehensive Medical Benchmark Derived from Open-Access Book
- Title(参考訳): MedBookVQA: Open-Access Bookから派生したシステム的で総合的な医療ベンチマーク
- Authors: Sau Lai Yip, Sunan He, Yuxiang Nie, Shu Pui Chan, Yilin Ye, Sum Ying Lam, Hao Chen,
- Abstract要約: MedBookVQAは、オープンアクセス医療教科書から派生した、体系的で包括的なマルチモーダルベンチマークである。
当科では, モダリティ認識, 分類, 解剖学的診断, 症状診断, 外科的手術を含む, 5000の臨床的関連質問項目を作成した。
我々は、プロプライエタリ、オープンソース、医療、推論モデルを含む幅広いMLLMを評価し、タスクタイプとモデルカテゴリ間での大幅なパフォーマンス格差を明らかにした。
- 参考スコア(独自算出の注目度): 5.318470975871017
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The accelerating development of general medical artificial intelligence (GMAI), powered by multimodal large language models (MLLMs), offers transformative potential for addressing persistent healthcare challenges, including workforce deficits and escalating costs. The parallel development of systematic evaluation benchmarks emerges as a critical imperative to enable performance assessment and provide technological guidance. Meanwhile, as an invaluable knowledge source, the potential of medical textbooks for benchmark development remains underexploited. Here, we present MedBookVQA, a systematic and comprehensive multimodal benchmark derived from open-access medical textbooks. To curate this benchmark, we propose a standardized pipeline for automated extraction of medical figures while contextually aligning them with corresponding medical narratives. Based on this curated data, we generate 5,000 clinically relevant questions spanning modality recognition, disease classification, anatomical identification, symptom diagnosis, and surgical procedures. A multi-tier annotation system categorizes queries through hierarchical taxonomies encompassing medical imaging modalities (42 categories), body anatomies (125 structures), and clinical specialties (31 departments), enabling nuanced analysis across medical subdomains. We evaluate a wide array of MLLMs, including proprietary, open-sourced, medical, and reasoning models, revealing significant performance disparities across task types and model categories. Our findings highlight critical capability gaps in current GMAI systems while establishing textbook-derived multimodal benchmarks as essential evaluation tools. MedBookVQA establishes textbook-derived benchmarking as a critical paradigm for advancing clinical AI, exposing limitations in GMAI systems while providing anatomically structured performance metrics across specialties.
- Abstract(参考訳): 汎用医療人工知能(GMAI)の開発は、マルチモーダルな大規模言語モデル(MLLM)によって加速され、労働力不足やエスカレーションコストなど、永続的な医療課題に対処するための変革的なポテンシャルを提供する。
システム評価ベンチマークの並列開発は、性能評価を可能とし、技術的ガイダンスを提供するための重要な衝動として現れている。
一方、貴重な知識源として、ベンチマーク開発のための医学教科書の可能性はまだ明らかになっていない。
ここでは、オープンアクセス医療教科書から派生した、体系的で包括的なマルチモーダル・ベンチマークであるMedBookVQAを紹介する。
このベンチマークをキュレートするために,医療人物の自動抽出のための標準化されたパイプラインを提案する。
本治験データから, モダリティ認識, 疾患分類, 解剖学的診断, 症状診断, 外科的治療など, 5,000の臨床的に関連性のある質問項目が得られた。
多層アノテーションシステムは、医用画像モダリティ(42のカテゴリ)、身体解剖(125の組織)、臨床専門(31の部門)を含む階層分類によるクエリを分類し、医療サブドメインをまたいだニュアンス分析を可能にする。
我々は、プロプライエタリ、オープンソース、医療、推論モデルを含む幅広いMLLMを評価し、タスクタイプとモデルカテゴリ間での大幅なパフォーマンス格差を明らかにした。
本研究は,現在のGMAIシステムにおいて,教科書由来のマルチモーダルベンチマークを本質的な評価ツールとして確立しつつ,重要な機能ギャップを浮き彫りにするものである。
MedBookVQAは、臨床AIの進歩のための重要なパラダイムとして、教科書由来のベンチマークを確立し、GMAIシステムの制限を明らかにし、専門分野にわたって解剖学的に構造化されたパフォーマンス指標を提供する。
関連論文リスト
- From large language models to multimodal AI: A scoping review on the potential of generative AI in medicine [40.23383597339471]
マルチモーダルAIは、イメージング、テキスト、構造化データを含む多様なデータモダリティを単一のモデルに統合することができる。
このスコーピングレビューは、マルチモーダルAIの進化を探求し、その方法、アプリケーション、データセット、臨床環境での評価を強調している。
診断支援,医療報告生成,薬物発見,会話型AIの革新を推進し,一過性のアプローチからマルチモーダルアプローチへのシフトを示唆した。
論文 参考訳(メタデータ) (2025-02-13T11:57:51Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - COGNET-MD, an evaluation framework and dataset for Large Language Model benchmarks in the medical domain [1.6752458252726457]
大規模言語モデル(LLM)は最先端の人工知能(AI)技術である。
医療領域認知ネットワーク評価ツールキット(COGNET-MD)について概説する。
医用テキストの解釈におけるLCMの能力を評価するのが困難であるスコアフレームを提案する。
論文 参考訳(メタデータ) (2024-05-17T16:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。