論文の概要: Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy
- arxiv url: http://arxiv.org/abs/2506.09958v1
- Date: Wed, 11 Jun 2025 17:31:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.170646
- Title: Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy
- Title(参考訳): Kvasir-VQA-x1:MedVQAとMedVQAのマルチモーダルデータセット
- Authors: Sushant Gautam, Michael A. Riegler, Pål Halvorsen,
- Abstract要約: Kvasir-VQA-x1は消化管内視鏡(GI)の新しい大規模データセットである。
我々は159,549組の新しい質問応答ペアを組み込むことで,元のKvasir-VQAを大幅に拡張した。
Kvasir-VQA-x1は、より困難で臨床的に関係のあるベンチマークを提供することで、より信頼性が高く効果的なマルチモーダルAIシステムの開発を加速することを目指している。
- 参考スコア(独自算出の注目度): 3.3091869879941687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Visual Question Answering (MedVQA) is a promising field for developing clinical decision support systems, yet progress is often limited by the available datasets, which can lack clinical complexity and visual diversity. To address these gaps, we introduce Kvasir-VQA-x1, a new, large-scale dataset for gastrointestinal (GI) endoscopy. Our work significantly expands upon the original Kvasir-VQA by incorporating 159,549 new question-answer pairs that are designed to test deeper clinical reasoning. We developed a systematic method using large language models to generate these questions, which are stratified by complexity to better assess a model's inference capabilities. To ensure our dataset prepares models for real-world clinical scenarios, we have also introduced a variety of visual augmentations that mimic common imaging artifacts. The dataset is structured to support two main evaluation tracks: one for standard VQA performance and another to test model robustness against these visual perturbations. By providing a more challenging and clinically relevant benchmark, Kvasir-VQA-x1 aims to accelerate the development of more reliable and effective multimodal AI systems for use in clinical settings. The dataset is fully accessible and adheres to FAIR data principles, making it a valuable resource for the wider research community. Code and data: https://github.com/Simula/Kvasir-VQA-x1 and https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1
- Abstract(参考訳): MedVQA (Medicical Visual Question Answering) は、臨床診断支援システムの開発において有望な分野である。
Kvasir-VQA-x1は消化器内視鏡(GI)の新しい大規模データセットである。
我々の研究は、より深い臨床推論をテストするように設計された159,549の質問応答ペアを組み込むことで、オリジナルのKvasir-VQAを大きく拡張する。
我々は,これらの質問を生成するために,大規模言語モデルを用いた体系的手法を開発した。
我々のデータセットが実際の臨床シナリオのモデルを作成するのを確実にするために、一般的な画像アーティファクトを模倣する様々な視覚拡張も導入しました。
データセットは、2つの主要な評価トラックをサポートするように構成されている。
Kvasir-VQA-x1は、より困難で臨床的に関係のあるベンチマークを提供することで、より信頼性が高く効果的なマルチモーダルAIシステムの開発を加速することを目指している。
データセットは完全にアクセス可能で、FAIRデータ原則に準拠しているため、より広い研究コミュニティにとって貴重なリソースである。
コードとデータ:https://github.com/Simula/Kvasir-VQA-x1 and https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1
関連論文リスト
- Interpreting Chest X-rays Like a Radiologist: A Benchmark with Clinical Reasoning [18.15610003617933]
胸部X線(CXR)解釈のための新しい多段階視覚質問応答(VQA)データセットであるCXRTrekを提案する。
このデータセットは、現実の臨床環境で放射線技師が使用する診断的推論プロセスを明示的にシミュレートするように設計されている。
本稿では,新たな視覚言語大モデル (VLLM) であるCXRTrekNetを提案する。
論文 参考訳(メタデータ) (2025-05-29T06:30:40Z) - GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis [44.76975131560712]
胸部X線診断(GEMeX)のための大規模・地中・説明可能な医用VQAベンチマークを導入する。
151,025の画像と1,605,575の質問により、GEMeXは現在最大の胸部X線VQAデータセットである。
論文 参考訳(メタデータ) (2024-11-25T07:36:46Z) - BESTMVQA: A Benchmark Evaluation System for Medical Visual Question
Answering [8.547600133510551]
本稿では,BESTMVQAで表される医用視覚質問応答のベンチマーク評価SysTemを開発する。
本システムは,Med-VQAデータセットを自動構築する上で有用なツールを提供する。
簡単な構成で、ベンチマークデータセット上で選択したモデルを自動でトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-12-13T03:08:48Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - GastroVision: A Multi-class Endoscopy Image Dataset for Computer Aided
Gastrointestinal Disease Detection [6.231109933741383]
本データセットは, 解剖学的所見, 病理所見, ポリープ除去症例, 正常所見を含む。
経験豊富なGI内科医によって注釈され、検証された。
我々のデータセットは、GI病の検出と分類のためのAIベースのアルゴリズムの開発を促進することができると信じている。
論文 参考訳(メタデータ) (2023-07-16T19:36:03Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。