論文の概要: RadImageNet-VQA: A Large-Scale CT and MRI Dataset for Radiologic Visual Question Answering
- arxiv url: http://arxiv.org/abs/2512.17396v1
- Date: Fri, 19 Dec 2025 09:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.334185
- Title: RadImageNet-VQA: A Large-Scale CT and MRI Dataset for Radiologic Visual Question Answering
- Title(参考訳): RadImageNet-VQA: 大規模CTとMRIによる画像診断
- Authors: Léo Butsanets, Charles Corbière, Julien Khlaut, Pierre Manceron, Corentin Dancette,
- Abstract要約: RadImageNet-VQAは、CTおよびMRI検査において、X線学的視覚質問応答(VQA)を促進するために設計された大規模なデータセットである。
専門家による注釈から構築され、750万の質問回答サンプルと組み合わせて750Kの画像を提供する。
異常検出、解剖学的認識、病理診断の3つの重要なタスクをカバーしている。
- 参考スコア(独自算出の注目度): 5.303350558351058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce RadImageNet-VQA, a large-scale dataset designed to advance radiologic visual question answering (VQA) on CT and MRI exams. Existing medical VQA datasets are limited in scale, dominated by X-ray imaging or biomedical illustrations, and often prone to text-based shortcuts. RadImageNet-VQA is built from expert-curated annotations and provides 750K images paired with 7.5M question-answer samples. It covers three key tasks - abnormality detection, anatomy recognition, and pathology identification - spanning eight anatomical regions and 97 pathology categories, and supports open-ended, closed-ended, and multiple-choice questions. Extensive experiments show that state-of-the-art vision-language models still struggle with fine-grained pathology identification, particularly in open-ended settings and even after fine-tuning. Text-only analysis further reveals that model performance collapses to near-random without image inputs, confirming that RadImageNet-VQA is free from linguistic shortcuts. The full dataset and benchmark are publicly available at https://huggingface.co/datasets/raidium/RadImageNet-VQA.
- Abstract(参考訳): 本研究では,CTおよびMRI検査におけるVQAの高速化を目的とした大規模データセットであるRadImageNet-VQAを紹介する。
既存の医療用VQAデータセットは、X線画像やバイオメディカルなイラストが中心であり、しばしばテキストベースのショートカットの傾向にある。
RadImageNet-VQAは専門家による注釈から構築され、750万の質問応答サンプルと組み合わせた750Kイメージを提供する。
異常検出、解剖学的認識、病理診断の3つの重要なタスクをカバーし、8つの解剖学的領域と97の病理カテゴリにまたがり、オープンエンド、クローズドエンド、複数選択の質問をサポートする。
大規模な実験によると、最先端のビジョン言語モデルは、特にオープンエンド設定や微調整後でさえ、細かな病理診断に苦慮している。
テキストのみの分析により、RadImageNet-VQAが言語的ショートカットから解放されていることを確認した。
完全なデータセットとベンチマークはhttps://huggingface.co/datasets/raidium/RadImageNet-VQAで公開されている。
関連論文リスト
- MedROV: Towards Real-Time Open-Vocabulary Detection Across Diverse Medical Imaging Modalities [89.81463562506637]
医用画像のための最初のリアルタイムオープン語彙検出モデルであるMedROVを紹介する。
対照的な学習とクロスモーダル表現を活用することで、MedROVは既知の構造と新しい構造の両方を効果的に検出する。
論文 参考訳(メタデータ) (2025-11-25T18:59:53Z) - Computed Tomography Visual Question Answering with Cross-modal Feature Graphing [16.269682136158004]
医用画像における視覚的質問応答 (VQA) は、自然言語クエリに応答して複雑な画像データを自動的に解釈することにより、臨床診断を支援することを目的としている。
既存の研究は、医用画像と臨床の質問から特徴を独立して抽出するために、視覚的およびテキスト的エンコーダに頼っている。
本稿では,有能な特徴のグラフ表現によって強化された新しい大規模言語モデル(LLM)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-06T10:37:16Z) - RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [64.66825253356869]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。
我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。
RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-06T17:43:03Z) - ROCOv2: Radiology Objects in COntext Version 2, an Updated Multimodal Image Dataset [4.382166835379353]
本稿では,放射線画像と関連する医療概念とキャプションからなるマルチモーダルデータセットである,COntext version 2 (ROCOv2)について紹介する。
2018年に公開されたROCOデータセットの更新版であり、2018年以来、PMCに35,705の新しいイメージが追加されている。
このデータセットは79,789枚の画像で構成され、ImageCLEFmedical Caption 2023のコンセプト検出とキャプション予測タスクにおいて、小さな修正が加えられている。
論文 参考訳(メタデータ) (2024-05-16T11:44:35Z) - Free Form Medical Visual Question Answering in Radiology [3.495246564946556]
医療用ビジュアル質問回答の研究は、2018年以来、勢いを増している。
本研究は,放射線画像の効果的表現とマルチモーダル表現の連成学習について考察する。
我々のモデルは、より複雑なアーキテクチャでトップ1の精度79.55%を実現し、現在の最先端モデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-23T20:26:52Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Medical visual question answering using joint self-supervised learning [8.817054025763325]
エンコーダは、自己アテンション機構で画像-テキスト二重モードに埋め込まれる。
デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。
論文 参考訳(メタデータ) (2023-02-25T12:12:22Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。