論文の概要: MedErr-CT: A Visual Question Answering Benchmark for Identifying and Correcting Errors in CT Reports
- arxiv url: http://arxiv.org/abs/2506.19217v1
- Date: Tue, 24 Jun 2025 00:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.424368
- Title: MedErr-CT: A Visual Question Answering Benchmark for Identifying and Correcting Errors in CT Reports
- Title(参考訳): MedErr-CT:CTにおける誤りの同定と修正のためのビジュアル質問応答ベンチマーク
- Authors: Sunggu Kyung, Hyungbin Park, Jinyoung Seo, Jimin Sung, Jihyun Kim, Dongyeong Kim, Wooyoung Jo, Yoojin Nam, Sangah Park, Taehee Kwon, Sang Min Lee, Namkug Kim,
- Abstract要約: MedErr-CTは医療MLLMのCTレポートにおける誤りの特定と修正能力を評価するための新しいベンチマークである。
ベンチマークには6つのエラーカテゴリが含まれている。4つの視覚中心エラー(Omission, Insertion, Direction, Size)と2つの語彙的エラータイプ(Unit, Typo)だ。
- 参考スコア(独自算出の注目度): 4.769418278782809
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Computed Tomography (CT) plays a crucial role in clinical diagnosis, but the growing demand for CT examinations has raised concerns about diagnostic errors. While Multimodal Large Language Models (MLLMs) demonstrate promising comprehension of medical knowledge, their tendency to produce inaccurate information highlights the need for rigorous validation. However, existing medical visual question answering (VQA) benchmarks primarily focus on simple visual recognition tasks, lacking clinical relevance and failing to assess expert-level knowledge. We introduce MedErr-CT, a novel benchmark for evaluating medical MLLMs' ability to identify and correct errors in CT reports through a VQA framework. The benchmark includes six error categories - four vision-centric errors (Omission, Insertion, Direction, Size) and two lexical error types (Unit, Typo) - and is organized into three task levels: classification, detection, and correction. Using this benchmark, we quantitatively assess the performance of state-of-the-art 3D medical MLLMs, revealing substantial variation in their capabilities across different error types. Our benchmark contributes to the development of more reliable and clinically applicable MLLMs, ultimately helping reduce diagnostic errors and improve accuracy in clinical practice. The code and datasets are available at https://github.com/babbu3682/MedErr-CT.
- Abstract(参考訳): CTは臨床診断において重要な役割を担っているが,CT検査の需要が高まり,診断ミスが懸念されている。
MLLM(Multimodal Large Language Models)は、医療知識の有望な理解を示す一方で、不正確な情報を生み出す傾向は、厳密な検証の必要性を浮き彫りにしている。
しかしながら、既存の医用視覚質問応答(VQA)ベンチマークは、主に単純な視覚認知タスクに焦点を当てており、臨床関連性が欠如し、専門家レベルの知識を評価できない。
VQAフレームワークによるCTレポートの誤りを識別・修正する医療MLLMの能力を評価するための新しいベンチマークであるMedErr-CTを紹介する。
ベンチマークには6つのエラーカテゴリ - 視覚中心のエラー(オミッション、挿入、方向、サイズ)と2つの語彙エラータイプ(Unit、Typo) - が含まれており、分類、検出、修正の3つのタスクレベルで構成されている。
このベンチマークを用いて、最先端の3D医療MLLMの性能を定量的に評価し、様々なエラータイプにまたがる性能のかなりの変化を明らかにした。
本ベンチマークは, より信頼性が高く, 臨床応用可能なMLLMの開発に寄与し, 最終的に診断誤差の低減と臨床実習の精度の向上に寄与する。
コードとデータセットはhttps://github.com/babbu3682/MedErr-CTで公開されている。
関連論文リスト
- Enhancing Clinical Multiple-Choice Questions Benchmarks with Knowledge Graph Guided Distractor Generation [29.547871298286687]
本稿では,インタプリタを生成することで,臨床データセットの難易度を高める知識誘導型データ拡張フレームワークを提案する。
我々のアプローチは、医療的関連性はあるものの、実際は正しくない、気晴らしの経路-連想を特定するために、医療知識グラフ上の多段階的、意味的に情報を得たウォークである。
設計した知識グラフガイド型イントラクタ生成(KGGDG)ピップラインを6つの広く使用されている医療用QAベンチマークに適用し、最先端のLCMの精度を一貫して低下させることを示す。
論文 参考訳(メタデータ) (2025-05-31T15:51:09Z) - Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering [8.185551155349241]
Vision-Language Models (VLMs) は様々な2次元視覚タスクにおいて有望であるが、3次元臨床診断への準備が整っていない。
腹部腫瘍を対象とする診断的視覚質問応答ベンチマークであるDeepTumorVQAについて検討した。
17の公開データセットから9,262のCTボリューム(3.7Mスライス)と、認識、計測、視覚的推論、医学的推論の4つのカテゴリにまたがる395Kの専門家レベルの質問で構成されている。
論文 参考訳(メタデータ) (2025-05-25T00:50:15Z) - MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes [22.401540975926324]
MEDECは医学的誤りの検出と修正のための最初の公開ベンチマークである。
MEDECは3,848の臨床的テキストで構成されており、3つの病院システムから488の臨床ノートが含まれている。
医学的知識と推論能力の両方を必要とする医療ミスの検出・修正タスクについて,最近のLCMを評価した。
論文 参考訳(メタデータ) (2024-12-26T15:54:10Z) - Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA [24.10436440624249]
大規模マルチモーダルモデル(LMM)は医療用視覚質問応答(Med-VQA)において顕著な進歩を示した
本研究は, 簡易な探索評価を行う場合, 医学的診断問題に対するランダムな推測よりも, 最先端のモデルの方が悪いことを明らかにした。
論文 参考訳(メタデータ) (2024-05-30T18:56:01Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。