論文の概要: ReXVQA: A Large-scale Visual Question Answering Benchmark for Generalist Chest X-ray Understanding
- arxiv url: http://arxiv.org/abs/2506.04353v1
- Date: Wed, 04 Jun 2025 18:11:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.365417
- Title: ReXVQA: A Large-scale Visual Question Answering Benchmark for Generalist Chest X-ray Understanding
- Title(参考訳): ReXVQA: 一般的な胸部X線理解のための大規模ビジュアル質問回答ベンチマーク
- Authors: Ankit Pal, Jung-Oh Lee, Xiaoman Zhang, Malaikannan Sankarasubbu, Seunghyeon Roh, Won Jung Kim, Meesun Lee, Pranav Rajpurkar,
- Abstract要約: ReXVQAは胸部X線検査における視覚的質問応答(VQA)の最大かつ最も包括的なベンチマークである。
約696,000の質問と、トレーニング、検証、テストセットにわたる16万の胸部X線研究のペアで構成されている。
我々は,MedGemma-4B-it,Qwen2.5-VL,Janus-Pro-7B,Eagle2-9Bを含む8つの最先端マルチモーダル言語モデルを評価する。
- 参考スコア(独自算出の注目度): 3.5568372183159203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ReXVQA, the largest and most comprehensive benchmark for visual question answering (VQA) in chest radiology, comprising approximately 696,000 questions paired with 160,000 chest X-rays studies across training, validation, and test sets. Unlike prior efforts that rely heavily on template based queries, ReXVQA introduces a diverse and clinically authentic task suite reflecting five core radiological reasoning skills: presence assessment, location analysis, negation detection, differential diagnosis, and geometric reasoning. We evaluate eight state-of-the-art multimodal large language models, including MedGemma-4B-it, Qwen2.5-VL, Janus-Pro-7B, and Eagle2-9B. The best-performing model (MedGemma) achieves 83.24% overall accuracy. To bridge the gap between AI performance and clinical expertise, we conducted a comprehensive human reader study involving 3 radiology residents on 200 randomly sampled cases. Our evaluation demonstrates that MedGemma achieved superior performance (83.84% accuracy) compared to human readers (best radiology resident: 77.27%), representing a significant milestone where AI performance exceeds expert human evaluation on chest X-ray interpretation. The reader study reveals distinct performance patterns between AI models and human experts, with strong inter-reader agreement among radiologists while showing more variable agreement patterns between human readers and AI models. ReXVQA establishes a new standard for evaluating generalist radiological AI systems, offering public leaderboards, fine-grained evaluation splits, structured explanations, and category-level breakdowns. This benchmark lays the foundation for next-generation AI systems capable of mimicking expert-level clinical reasoning beyond narrow pathology classification. Our dataset will be open-sourced at https://huggingface.co/datasets/rajpurkarlab/ReXVQA
- Abstract(参考訳): 胸部X線検査と16万個の胸部X線検査を併用した約696,000の質問を胸部X線検査, 評価, テストセットで比較し, 胸部X線検査における視覚的質問応答(VQA)の最大かつ総合的なベンチマークであるReXVQAを提案する。
テンプレートベースのクエリに大きく依存する以前の取り組みとは異なり、ReXVQAは、プレゼンスアセスメント、位置分析、否定検出、微分診断、幾何学的推論という5つの中核的な放射線学的推論スキルを反映した、多種かつ臨床的に信頼できるタスクスイートを導入している。
我々は,MedGemma-4B-it,Qwen2.5-VL,Janus-Pro-7B,Eagle2-9Bを含む8つの最先端マルチモーダル言語モデルを評価する。
最高の性能モデル(MedGemma)は83.24%の精度を実現している。
臨床とAIのパフォーマンスのギャップを埋めるため,200件のランダムな検体で3人の放射線科医を対象に,総合的な人間読者調査を行った。
評価の結果,MedGemmaはヒトの読影者に比べて優れた成績(83.84%の精度)を示した。
読者調査では、AIモデルと人間の専門家の間で異なるパフォーマンスパターンが明らかとなり、放射線学者の間では強い読者間の合意が得られた一方で、人間の読者とAIモデルの間でより多様な合意パターンが示された。
ReXVQAは、一般の放射線AIシステムを評価するための新しい標準を確立し、公衆のリーダーボード、きめ細かい評価分割、構造化された説明、カテゴリーレベルの分解を提供する。
このベンチマークは、狭義の病理分類を超えた専門家レベルの臨床推論を模倣できる次世代AIシステムの基盤を定めている。
私たちのデータセットはhttps://huggingface.co/datasets/rajpurkarlab/ReXVQAでオープンソース化されます。
関連論文リスト
- DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models [25.13622249539088]
diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。
診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。
我々の研究では、最も先進的な推論モデルであるo3、o1、DeepSeek-R1でさえ、それぞれ51.12%、31.09%、17.79%の精度しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2025-05-20T09:14:53Z) - Multi-Modal Explainable Medical AI Assistant for Trustworthy Human-AI Collaboration [17.11245701879749]
Generalist Medical AI (GMAI) システムは、バイオメディカル認知タスクにおいて、専門家レベルのパフォーマンスを実証している。
本稿では,XMedGPTについて紹介する。XMedGPTはクリニック中心のマルチモーダルAIアシスタントで,テキストと視覚の解釈性を統合している。
我々は,マルチモーダル解釈可能性,不確実性定量化,予測モデリング,厳密なベンチマークの4つの柱にまたがってXMedGPTを検証する。
論文 参考訳(メタデータ) (2025-05-11T08:32:01Z) - Artificial Intelligence to Assess Dental Findings from Panoramic Radiographs -- A Multinational Study [3.8184255731311287]
6,669個の歯科用パノラマ線写真(DPR)を3つのデータセットから分析した。
性能指標には、受信機動作特性曲線(AUC-ROC)の感度、特異性、面積が含まれていた。
AIシステムは、人間の読者に匹敵する、あるいは優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2025-02-14T16:34:21Z) - MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。
Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。
従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文 参考訳(メタデータ) (2024-08-13T01:30:03Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - CXR-LLAVA: a multimodal large language model for interpreting chest
X-ray images [3.0757789554622597]
本研究の目的は,胸部X線画像(CXR)を解釈するためのオープンソースのマルチモーダル大言語モデル(CXR-LLAVA)を開発することである。
トレーニングでは,592,580個のCXRを収集し,そのうち374,881個のX線写真異常のラベルが得られた。
主な病理所見に対する診断成績と,ヒト放射線技師による放射線学的報告の受容性について検討した。
論文 参考訳(メタデータ) (2023-10-22T06:22:37Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Robustness of an Artificial Intelligence Solution for Diagnosis of
Normal Chest X-Rays [0.0]
正常胸部X線(CXR)の診断におけるAIソリューションの有用性について検討した。
合計4,060個のCXRがサンプリングされ、NHS患者とケア設定の多様なデータセットが表現された。
論文 参考訳(メタデータ) (2022-08-31T09:54:24Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。