論文の概要: 3D-RAD: A Comprehensive 3D Radiology Med-VQA Dataset with Multi-Temporal Analysis and Diverse Diagnostic Tasks
- arxiv url: http://arxiv.org/abs/2506.11147v1
- Date: Wed, 11 Jun 2025 09:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.51248
- Title: 3D-RAD: A Comprehensive 3D Radiology Med-VQA Dataset with Multi-Temporal Analysis and Diverse Diagnostic Tasks
- Title(参考訳): 3D-RAD:マルチテンポラル解析と診断タスクを用いた総合的3DラジオロジーMed-VQAデータセット
- Authors: Xiaotang Gai, Jiaxiang Liu, Yichen Li, Zijie Meng, Jian Wu, Zuozhu Liu,
- Abstract要約: 医用視覚質問応答 (Med-VQA) は, 臨床診断支援に有意な可能性を秘めている。
本稿では,ラジオグラフィCTスキャンを用いた3次元メドVQAの高速化を目的とした大規模データセットである3D-RADを提案する。
- 参考スコア(独自算出の注目度): 14.366478737339909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Visual Question Answering (Med-VQA) holds significant potential for clinical decision support, yet existing efforts primarily focus on 2D imaging with limited task diversity. This paper presents 3D-RAD, a large-scale dataset designed to advance 3D Med-VQA using radiology CT scans. The 3D-RAD dataset encompasses six diverse VQA tasks: anomaly detection, image observation, medical computation, existence detection, static temporal diagnosis, and longitudinal temporal diagnosis. It supports both open- and closed-ended questions while introducing complex reasoning challenges, including computational tasks and multi-stage temporal analysis, to enable comprehensive benchmarking. Extensive evaluations demonstrate that existing vision-language models (VLMs), especially medical VLMs exhibit limited generalization, particularly in multi-temporal tasks, underscoring the challenges of real-world 3D diagnostic reasoning. To drive future advancements, we release a high-quality training set 3D-RAD-T of 136,195 expert-aligned samples, showing that fine-tuning on this dataset could significantly enhance model performance. Our dataset and code, aiming to catalyze multimodal medical AI research and establish a robust foundation for 3D medical visual understanding, are publicly available at https://github.com/Tang-xiaoxiao/M3D-RAD.
- Abstract(参考訳): 医用視覚質問応答 (Med-VQA) は, 臨床診断支援に重要な可能性を秘めている。
本稿では,ラジオグラフィCTスキャンを用いた3次元メドVQAの高速化を目的とした大規模データセットである3D-RADを提案する。
3D-RADデータセットは、異常検出、画像観察、医療計算、存在検出、静的時間診断、縦断的診断の6つのVQAタスクを含む。
包括的なベンチマークを可能にするために、計算タスクや多段階の時間分析を含む複雑な推論課題を導入しながら、オープンエンドとクローズドエンドの両方の質問をサポートする。
広汎な評価は、既存の視覚言語モデル(VLM)、特に医療用VLMは、特にマルチ時間的タスクにおいて限定的な一般化を示し、現実世界の3D診断推論の課題を浮き彫りにしていることを示している。
今後の進歩を推し進めるため、我々は136,195人の専門家によるサンプルからなる高品質のトレーニングセット3D-RAD-Tをリリースし、このデータセットの微調整によりモデルの性能が大幅に向上することを示した。
私たちのデータセットとコードは、マルチモーダルな医療AI研究を触媒し、3Dの医用ビジュアル理解のための堅牢な基盤を確立することを目的として、https://github.com/Tang-xiaoxiao/M3D-RADで公開されています。
関連論文リスト
- Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering [8.185551155349241]
Vision-Language Models (VLMs) は様々な2次元視覚タスクにおいて有望であるが、3次元臨床診断への準備が整っていない。
腹部腫瘍を対象とする診断的視覚質問応答ベンチマークであるDeepTumorVQAについて検討した。
17の公開データセットから9,262のCTボリューム(3.7Mスライス)と、認識、計測、視覚的推論、医学的推論の4つのカテゴリにまたがる395Kの専門家レベルの質問で構成されている。
論文 参考訳(メタデータ) (2025-05-25T00:50:15Z) - Embodied Intelligence for 3D Understanding: A Survey on 3D Scene Question Answering [28.717312557697376]
3D Scene Question Answeringは、3D視覚認識と自然言語処理を統合した学際的なタスクである。
大規模マルチモーダルモデリングの最近の進歩は、多様なデータセットの作成を促し、3D SQAのための命令チューニングとゼロショット手法の開発を加速させた。
本稿では,3D SQAを総合的に調査し,データセット,方法論,評価指標を体系的に検討する。
論文 参考訳(メタデータ) (2025-02-01T07:01:33Z) - MG-3D: Multi-Grained Knowledge-Enhanced 3D Medical Vision-Language Pre-training [7.968487067774351]
3次元医用画像解析は多くの臨床応用において重要である。
3次元医用画像解析では、大規模視覚言語による事前訓練がまだ検討されていない。
大規模データ(47.1K)に基づいて事前学習したMG-3Dを提案する。
論文 参考訳(メタデータ) (2024-12-08T09:45:59Z) - E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model [23.56751925900571]
3次元医用視覚言語モデルの開発は、疾患の診断と患者の治療に有意な可能性を秘めている。
自己教師付き学習を用いて3次元視覚特徴抽出のための3次元視覚基盤モデルを構築した。
本研究では,3次元空間畳み込みを高精細画像の特徴の集約・投影に応用し,計算複雑性を低減した。
本モデルは,既存の報告生成法,視覚的質問応答法,疾患診断法と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-18T06:31:40Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - Large-scale Long-tailed Disease Diagnosis on Radiology Images [51.453990034460304]
RadDiagは、様々なモダリティと解剖学にわたる2Dおよび3D入力をサポートする基礎モデルである。
私たちのデータセットであるRP3D-DiagDSは、5,568の障害をカバーする195,010のスキャンで40,936の症例を含む。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - 3D-MIR: A Benchmark and Empirical Study on 3D Medical Image Retrieval in
Radiology [6.851500027718433]
3D画像検索の分野はまだ発展途上であり、確立された評価ベンチマーク、包括的なデータセット、徹底的な研究が欠如している。
本稿では,3次元医用画像検索のための新しいベンチマーク(3D-MIR)を提案する。
このベンチマークを用いて,一般的なマルチモーダル基礎モデルの2次元スライス,3次元ボリューム,マルチモーダル埋め込みをクエリとして利用する,多様な検索戦略を探索する。
論文 参考訳(メタデータ) (2023-11-23T00:57:35Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。