論文の概要: VinDr-CXR-VQA: A Visual Question Answering Dataset for Explainable Chest X-Ray Analysis with Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2511.00504v1
- Date: Sat, 01 Nov 2025 11:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.809368
- Title: VinDr-CXR-VQA: A Visual Question Answering Dataset for Explainable Chest X-Ray Analysis with Multi-Task Learning
- Title(参考訳): VinDr-CXR-VQA:マルチタスク学習による説明可能な胸部X線分析のための視覚的質問応答データセット
- Authors: Hai-Dang Nguyen, Ha-Hieu Pham, Hao T. Nguyen, Huy-Hieu Pham,
- Abstract要約: VinDr-CXR-VQA(VinDr-CXR-VQA)は、医用視覚質問応答(Med-VQA)のための大規模胸部X線データセットである。
データセットには4,394枚の画像からなる17,597枚の質問応答対が含まれており、それぞれに放射線技師が検証した境界ボックスと臨床理由説明が注釈付けされている。
- 参考スコア(独自算出の注目度): 2.3221080499897178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present VinDr-CXR-VQA, a large-scale chest X-ray dataset for explainable Medical Visual Question Answering (Med-VQA) with spatial grounding. The dataset contains 17,597 question-answer pairs across 4,394 images, each annotated with radiologist-verified bounding boxes and clinical reasoning explanations. Our question taxonomy spans six diagnostic types-Where, What, Is there, How many, Which, and Yes/No-capturing diverse clinical intents. To improve reliability, we construct a balanced distribution of 41.7% positive and 58.3% negative samples, mitigating hallucinations in normal cases. Benchmarking with MedGemma-4B-it demonstrates improved performance (F1 = 0.624, +11.8% over baseline) while enabling lesion localization. VinDr-CXR-VQA aims to advance reproducible and clinically grounded Med-VQA research. The dataset and evaluation tools are publicly available at huggingface.co/datasets/Dangindev/VinDR-CXR-VQA.
- Abstract(参考訳): VinDr-CXR-VQAは,医用視覚質問応答装置(Med-VQA)のための大規模胸部X線データセットである。
データセットには4,394枚の画像からなる17,597枚の質問応答対が含まれており、それぞれに放射線技師が検証した境界ボックスと臨床理由説明が注釈付けされている。
分類学は,6つの診断タイプ,何,何,何,何,何,Yes/No-capturingの多様な臨床目的にまたがる。
信頼性を向上させるため,正常例では幻覚を緩和し,41.7%,58.3%の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
MedGemma-4B-itによるベンチマークでは、病変の局所化を実現しつつ、パフォーマンス(F1 = 0.624, +11.8%)が向上した。
VinDr-CXR-VQAは、再現可能で臨床に根ざしたMed-VQA研究を促進することを目的としている。
データセットと評価ツールは、hanggingface.co/datasets/Dangindev/VinDR-CXR-VQAで公開されている。
関連論文リスト
- Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。
胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:28:22Z) - Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy [3.3091869879941687]
Kvasir-VQA-x1は消化管内視鏡(GI)の新しい大規模データセットである。
我々は159,549組の新しい質問応答ペアを組み込むことで,元のKvasir-VQAを大幅に拡張した。
Kvasir-VQA-x1は、より困難で臨床的に関係のあるベンチマークを提供することで、より信頼性が高く効果的なマルチモーダルAIシステムの開発を加速することを目指している。
論文 参考訳(メタデータ) (2025-06-11T17:31:38Z) - GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis [44.76975131560712]
胸部X線診断(GEMeX)のための大規模・地中・説明可能な医用VQAベンチマークを導入する。
151,025の画像と1,605,575の質問により、GEMeXは現在最大の胸部X線VQAデータセットである。
論文 参考訳(メタデータ) (2024-11-25T07:36:46Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - Instrumental Variable Learning for Chest X-ray Classification [52.68170685918908]
本稿では,素因果関係を排除し,正確な因果表現を得るための解釈可能な機器変数(IV)学習フレームワークを提案する。
提案手法の性能はMIMIC-CXR,NIH ChestX-ray 14,CheXpertデータセットを用いて実証した。
論文 参考訳(メタデータ) (2023-05-20T03:12:23Z) - CIRCA: comprehensible online system in support of chest X-rays-based
COVID-19 diagnosis [37.41181188499616]
深層学習技術は、新型コロナウイルスの迅速検出と疾患の進行のモニタリングに役立つ。
5つの異なるデータセットを使用して、モデルトレーニングのための23の799 CXRの代表的なデータセットを構築した。
The U-Net-based model was developed to identified a clinically relevant region of the CXR。
論文 参考訳(メタデータ) (2022-10-11T13:30:34Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - PediCXR: An open, large-scale chest radiograph dataset for
interpretation of common thoracic diseases in children [0.31317409221921133]
私たちは、2020年から2021年にかけて、ベトナムの大手小児病院から遡及的に収集された9,125の小児CXRデータセットであるPediCXRをリリースしました。
このデータセットは、36の重大な発見と15の疾患の存在のためにラベル付けされた。
論文 参考訳(メタデータ) (2022-03-20T18:03:11Z) - The pitfalls of using open data to develop deep learning solutions for
COVID-19 detection in chest X-rays [64.02097860085202]
深層学習モデルは、胸部X線から新型コロナウイルスを識別するために開発された。
オープンソースデータのトレーニングやテストでは,結果は異例です。
データ分析とモデル評価は、人気のあるオープンソースデータセットであるCOVIDxが実際の臨床問題を代表していないことを示している。
論文 参考訳(メタデータ) (2021-09-14T10:59:11Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - Predicting COVID-19 Pneumonia Severity on Chest X-ray with Deep Learning [57.00601760750389]
前頭部胸部X線画像の重症度予測モデルを提案する。
このようなツールは、エスカレーションやケアの非エスカレーションに使用できる新型コロナウイルスの肺感染症の重症度を測定することができる。
論文 参考訳(メタデータ) (2020-05-24T23:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。