論文の概要: MedBookVQA: A Systematic and Comprehensive Medical Benchmark Derived from Open-Access Book
- arxiv url: http://arxiv.org/abs/2506.00855v1
- Date: Sun, 01 Jun 2025 06:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.702742
- Title: MedBookVQA: A Systematic and Comprehensive Medical Benchmark Derived from Open-Access Book
- Title(参考訳): MedBookVQA: Open-Access Bookから派生したシステム的で総合的な医療ベンチマーク
- Authors: Sau Lai Yip, Sunan He, Yuxiang Nie, Shu Pui Chan, Yilin Ye, Sum Ying Lam, Hao Chen,
- Abstract要約: MedBookVQAは、オープンアクセス医療教科書から派生した、体系的で包括的なマルチモーダルベンチマークである。
当科では, モダリティ認識, 分類, 解剖学的診断, 症状診断, 外科的手術を含む, 5000の臨床的関連質問項目を作成した。
我々は、プロプライエタリ、オープンソース、医療、推論モデルを含む幅広いMLLMを評価し、タスクタイプとモデルカテゴリ間での大幅なパフォーマンス格差を明らかにした。
- 参考スコア(独自算出の注目度): 5.318470975871017
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The accelerating development of general medical artificial intelligence (GMAI), powered by multimodal large language models (MLLMs), offers transformative potential for addressing persistent healthcare challenges, including workforce deficits and escalating costs. The parallel development of systematic evaluation benchmarks emerges as a critical imperative to enable performance assessment and provide technological guidance. Meanwhile, as an invaluable knowledge source, the potential of medical textbooks for benchmark development remains underexploited. Here, we present MedBookVQA, a systematic and comprehensive multimodal benchmark derived from open-access medical textbooks. To curate this benchmark, we propose a standardized pipeline for automated extraction of medical figures while contextually aligning them with corresponding medical narratives. Based on this curated data, we generate 5,000 clinically relevant questions spanning modality recognition, disease classification, anatomical identification, symptom diagnosis, and surgical procedures. A multi-tier annotation system categorizes queries through hierarchical taxonomies encompassing medical imaging modalities (42 categories), body anatomies (125 structures), and clinical specialties (31 departments), enabling nuanced analysis across medical subdomains. We evaluate a wide array of MLLMs, including proprietary, open-sourced, medical, and reasoning models, revealing significant performance disparities across task types and model categories. Our findings highlight critical capability gaps in current GMAI systems while establishing textbook-derived multimodal benchmarks as essential evaluation tools. MedBookVQA establishes textbook-derived benchmarking as a critical paradigm for advancing clinical AI, exposing limitations in GMAI systems while providing anatomically structured performance metrics across specialties.
- Abstract(参考訳): 汎用医療人工知能(GMAI)の開発は、マルチモーダルな大規模言語モデル(MLLM)によって加速され、労働力不足やエスカレーションコストなど、永続的な医療課題に対処するための変革的なポテンシャルを提供する。
システム評価ベンチマークの並列開発は、性能評価を可能とし、技術的ガイダンスを提供するための重要な衝動として現れている。
一方、貴重な知識源として、ベンチマーク開発のための医学教科書の可能性はまだ明らかになっていない。
ここでは、オープンアクセス医療教科書から派生した、体系的で包括的なマルチモーダル・ベンチマークであるMedBookVQAを紹介する。
このベンチマークをキュレートするために,医療人物の自動抽出のための標準化されたパイプラインを提案する。
本治験データから, モダリティ認識, 疾患分類, 解剖学的診断, 症状診断, 外科的治療など, 5,000の臨床的に関連性のある質問項目が得られた。
多層アノテーションシステムは、医用画像モダリティ(42のカテゴリ)、身体解剖(125の組織)、臨床専門(31の部門)を含む階層分類によるクエリを分類し、医療サブドメインをまたいだニュアンス分析を可能にする。
我々は、プロプライエタリ、オープンソース、医療、推論モデルを含む幅広いMLLMを評価し、タスクタイプとモデルカテゴリ間での大幅なパフォーマンス格差を明らかにした。
本研究は,現在のGMAIシステムにおいて,教科書由来のマルチモーダルベンチマークを本質的な評価ツールとして確立しつつ,重要な機能ギャップを浮き彫りにするものである。
MedBookVQAは、臨床AIの進歩のための重要なパラダイムとして、教科書由来のベンチマークを確立し、GMAIシステムの制限を明らかにし、専門分野にわたって解剖学的に構造化されたパフォーマンス指標を提供する。
関連論文リスト
- Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - MedIQA: A Scalable Foundation Model for Prompt-Driven Medical Image Quality Assessment [26.185840831950063]
しかし、既存のIQA法は、様々なモダリティや臨床シナリオにまたがる一般化に苦慮している。
MedIQAは,画像次元,モダリティ,解剖学的領域,タイプにおける可変性を扱うために設計された,医用IQAの最初の包括的基盤モデルである。
論文 参考訳(メタデータ) (2025-07-25T07:02:47Z) - PyTDC: A multimodal machine learning training, evaluation, and inference platform for biomedical foundation models [59.17570021208177]
PyTDCは、マルチモーダルな生物学的AIモデルのための合理化されたトレーニング、評価、推論ソフトウェアを提供する機械学習プラットフォームである。
本稿では、PyTDCのアーキテクチャの構成要素と、我々の知る限り、導入したシングルセルドラッグターゲットMLタスクにおける第一種ケーススタディについて論じる。
論文 参考訳(メタデータ) (2025-05-08T18:15:38Z) - From large language models to multimodal AI: A scoping review on the potential of generative AI in medicine [40.23383597339471]
マルチモーダルAIは、イメージング、テキスト、構造化データを含む多様なデータモダリティを単一のモデルに統合することができる。
このスコーピングレビューは、マルチモーダルAIの進化を探求し、その方法、アプリケーション、データセット、臨床環境での評価を強調している。
診断支援,医療報告生成,薬物発見,会話型AIの革新を推進し,一過性のアプローチからマルチモーダルアプローチへのシフトを示唆した。
論文 参考訳(メタデータ) (2025-02-13T11:57:51Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - COGNET-MD, an evaluation framework and dataset for Large Language Model benchmarks in the medical domain [1.6752458252726457]
大規模言語モデル(LLM)は最先端の人工知能(AI)技術である。
医療領域認知ネットワーク評価ツールキット(COGNET-MD)について概説する。
医用テキストの解釈におけるLCMの能力を評価するのが困難であるスコアフレームを提案する。
論文 参考訳(メタデータ) (2024-05-17T16:31:56Z) - MedPerf: Open Benchmarking Platform for Medical Artificial Intelligence
using Federated Evaluation [110.31526448744096]
この可能性を解き明かすには、大規模な異種データに対して医療AIモデルの性能を測定する体系的な方法が必要である、と私たちは主張する。
MedPerfは、医療分野で機械学習をベンチマークするためのオープンフレームワークです。
論文 参考訳(メタデータ) (2021-09-29T18:09:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。