論文の概要: DeepTumorVQA: A Hierarchical 3D CT Benchmark for Stage-Wise Evaluation of Medical VLMs and Tool-Augmented Agents
- arxiv url: http://arxiv.org/abs/2605.09679v1
- Date: Sun, 10 May 2026 17:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.368427
- Title: DeepTumorVQA: A Hierarchical 3D CT Benchmark for Stage-Wise Evaluation of Medical VLMs and Tool-Augmented Agents
- Title(参考訳): DeepTumorVQA:医療用VLMとツール強化剤のステージワイズ評価のための階層的3次元CTベンチマーク
- Authors: Yixiong Chen, Wenjie Xiao, Pedro R. A. S. Bassi, Boyan Wang, Liang He, Xinze Zhou, Sezgin Er, Ibrahim Ethem Hamamci, Zongwei Zhou, Alan Yuille,
- Abstract要約: 本稿では,3次元CT推論を,認識,計測,視覚的推論,医学的推論の4段階に分解する階層的ベンチマークを提案する。
このベンチマークには、42種類の臨床サブタイプに対して、9,262個の3DCTボリュームに対して476Kの質問が含まれている。
- 参考スコア(独自算出の注目度): 15.131996289027926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical vision-language models (VLMs) and AI agents have made significant progress in learning to analyze and reason about clinical images. However, existing medical visual question answering (VQA) benchmarks collapse model capabilities into a single accuracy score, obscuring where and why models fail. We propose DeepTumorVQA, a hierarchical benchmark that follows the multi-stage evidence chain in tumor diagnosis and decomposes 3D CT reasoning into four stages: recognition, measurement, visual reasoning, and medical reasoning. Higher-level questions remain independently scorable, while their ground-truth evidence chains are defined over lower-level primitives. The benchmark contains 476K questions across 42 clinical subtypes on 9,262 3D CT volumes. In addition to a direct reasoning mode for VLMs, DeepTumorVQA provides tool-interaction environments for agent evaluation, where a model can call external tools, including segmentation models, measurement programs, and medical knowledge modules, before answering the question. Evaluating over 30 model configurations, we find that reliable quantitative measurement is the primary bottleneck, making later-stage visual and medical reasoning harder for VLMs, while tool augmentation substantially mitigates this issue. When tools are available, leveraging medical knowledge and tools to reason about medical images becomes a new challenge. We further show that ground-truth step-by-step tool-use traces from DeepTumorVQA can supervise agents and reduce tool-use and reasoning failures. This stage-wise progression from recognition to measurement to visual and medical reasoning provides a concrete roadmap for future medical VLM and AI agent studies. All data and code are released at https://github.com/Schuture/DeepTumorVQA.
- Abstract(参考訳): 医用視覚言語モデル(VLM)とAIエージェントは、臨床画像の分析と推論の学習において大きな進歩を遂げている。
しかしながら、既存の医用視覚質問応答(VQA)ベンチマークでは、モデル機能の崩壊を1つの精度スコアにし、モデルが失敗する場所と理由を隠蔽している。
腫瘍診断における多段階的エビデンス連鎖に続く階層的ベンチマークであるDeepTumorVQAを提案し,3次元CT推論を認識,計測,視覚的推論,医学的推論の4段階に分解する。
より高いレベルの質問は独立にscorableのままであり、それらの基礎的な証拠連鎖は下位レベルのプリミティブ上で定義される。
このベンチマークには、42種類の臨床サブタイプに対して、9,262個の3DCTボリュームに対して476Kの質問が含まれている。
VLMの直接推論モードに加えて、DeepTumorVQAはエージェント評価のためのツール-インタラクション環境を提供し、モデルが質問に答える前にセグメンテーションモデル、測定プログラム、医療知識モジュールを含む外部ツールを呼び出すことができる。
30以上のモデル構成を評価すると、信頼性のある定量的測定が主要なボトルネックであり、VLMの後期的な視覚的および医学的推論が困難であるのに対して、ツール拡張はこの問題を大幅に軽減する。
ツールが利用可能になると、医療の知識とツールを活用して医療画像の推論が新しい課題となる。
さらに,DeepTumorVQAのツール使用トレースはエージェントを監督し,ツール使用や推論の失敗を減らすことができることを示す。
認識から計測、視覚的および医学的推論への段階的な進歩は、将来の医用VLMおよびAIエージェント研究のための具体的なロードマップを提供する。
すべてのデータとコードはhttps://github.com/Schuture/DeepTumorVQAで公開される。
関連論文リスト
- ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning [59.558706734431276]
空間知能の現在の評価は、現代の視覚言語モデル(VLM)設定下で体系的に無効にすることができる。
本稿では,各QAペアが実際の入力の下で応答可能で正しいことを保証するためのベンチマークとプロトコルであるReVSIを紹介する。
論文 参考訳(メタデータ) (2026-04-27T10:45:51Z) - MedForget: Hierarchy-Aware Multimodal Unlearning Testbed for Medical AI [66.0701326117134]
MedForgetは、階層型を意識したマルチモーダルなアンラーニングテストベッドで、準拠する医療AIシステムを構築する。
既存の手法は,診断性能を低下させることなく,完全かつ階層性に配慮した忘れの解決に苦慮していることを示す。
階層レベルのコンテキストをプロンプトに徐々に追加する再構成攻撃を導入する。
論文 参考訳(メタデータ) (2025-12-10T17:55:06Z) - MedVision: Dataset and Benchmark for Quantitative Medical Image Analysis [29.537915199171547]
医用画像解析における視覚言語モデル(VLM)の評価と改善を目的としたデータセットとベンチマークであるMedVisionを紹介する。
MedVisionは、さまざまな解剖学とモダリティをカバーする22のパブリックデータセットにまたがっており、30.8万のイメージアノテーションペアがある。
我々は,(1)解剖学的構造と異常の検出,(2)腫瘍/病変(T/L)の大きさ推定,(3)角度/距離(A/D)測定の3つの代表的な定量的タスクに着目した。
MedVisionの教師付き微調整により、検出、T/L推定、A/D計測における性能を著しく向上する。
論文 参考訳(メタデータ) (2025-11-24T01:26:07Z) - Hulu-Med: A Transparent Generalist Model towards Holistic Medical Vision-Language Understanding [112.46150793476603]
透明で汎用的な医用ビジョンランゲージモデル(VLM)であるHulu-Medを紹介する。
Hulu-Medは1670万サンプルのキュレートされたコーパスで訓練されており、12の解剖学的システムと14の医用画像モダリティにまたがっている。
Hulu-Medは、30ベンチマーク中27ベンチマークで既存のオープンソースモデルを上回っ、16ベンチマークでGPT-4oなどのプロプライエタリシステムを上回っている。
論文 参考訳(メタデータ) (2025-10-09T17:06:42Z) - MedErr-CT: A Visual Question Answering Benchmark for Identifying and Correcting Errors in CT Reports [4.769418278782809]
MedErr-CTは医療MLLMのCTレポートにおける誤りの特定と修正能力を評価するための新しいベンチマークである。
ベンチマークには6つのエラーカテゴリが含まれている。4つの視覚中心エラー(Omission, Insertion, Direction, Size)と2つの語彙的エラータイプ(Unit, Typo)だ。
論文 参考訳(メタデータ) (2025-06-24T00:51:03Z) - Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering [8.185551155349241]
Vision-Language Models (VLMs) は様々な2次元視覚タスクにおいて有望であるが、3次元臨床診断への準備が整っていない。
腹部腫瘍を対象とする診断的視覚質問応答ベンチマークであるDeepTumorVQAについて検討した。
17の公開データセットから9,262のCTボリューム(3.7Mスライス)と、認識、計測、視覚的推論、医学的推論の4つのカテゴリにまたがる395Kの専門家レベルの質問で構成されている。
論文 参考訳(メタデータ) (2025-05-25T00:50:15Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Visual Question Answering in the Medical Domain [13.673890873313354]
本稿では,Med-VQAタスクのための小さなデータセットの問題を軽減するために,新しいコントラスト学習事前学習手法を提案する。
提案モデルでは,VQA-Med 2019テストセットで60%の精度を達成し,他の最先端のMed-VQAモデルに匹敵する結果を得た。
論文 参考訳(メタデータ) (2023-09-20T06:06:10Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。