論文の概要: UCSF-PDGM-VQA: Visual Question Answering dataset for brain tumor MRI interpretation
- arxiv url: http://arxiv.org/abs/2605.17140v2
- Date: Tue, 19 May 2026 19:26:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.231169
- Title: UCSF-PDGM-VQA: Visual Question Answering dataset for brain tumor MRI interpretation
- Title(参考訳): UCSF-PDGM-VQA:脳腫瘍MRI解釈のための視覚質問応答データセット
- Authors: Shiv Ghosh, Junayd Lateef, Chih-Hua Liu, Yannan Yu, Andreas M. Rauschecker, Madhumita Sushil,
- Abstract要約: 脳腫瘍の診断はMRI(MRI)の評価に大きく依存している。
放射線学の需要が増えているにもかかわらず、この専門知識は拡張が困難であり、現在の健康システムに支障をきたす。
VLM(Vision-Language Models)は、複雑な脳MRIを半自動でインタラクティブに解釈することで、この負担を軽減する機会を提供する。
- 参考スコア(独自算出の注目度): 1.2006896500048554
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Brain tumor diagnosis is largely dependent on Magnetic Resonance Imaging (MRI) evaluation, which requires radiologists to synthesize thousands of images across multiple 3D sequences and longitudinal studies. This process requires advanced neuro-radiology training, poses substantial cognitive load, and is highly time-consuming. Despite increasing demands in radiology, this expertise is difficult to scale, straining the current health systems. Vision-Language Models (VLMs) provide an opportunity to reduce this burden through a semi-automated, interactive interpretation of complex brain MRIs. However, they are currently underutilized in neuro-oncology due to a lack of specialized benchmarks for evaluating them. We introduce a clinically relevant visual question answering (VQA) benchmark -- the UCSF-PDGM-VQA dataset -- consisting of 2,387 QA pairs from 473 glioma-related MRI studies in the public UCSF-PDGM dataset. We further establish a performance baseline for six state-of-the-art vision-language models (VLMs) and one large language model on this dataset. We find that current models are incapable of effectively processing multi-sequence, 3-dimensional MRI scans, thus resulting in a suppression of visual features and over-reliance on language priors, causing modality collapse. These findings underscore a critical deficiency in current model reliability and safety within clinical settings, necessitating the development of robust, domain-specific VLMs.
- Abstract(参考訳): 脳腫瘍の診断はMRI(Magnetic Resonance Imaging)の評価に大きく依存している。
このプロセスは高度な神経放射線学の訓練を必要とし、かなりの認知負荷を与え、非常に時間を要する。
放射線学の需要が増えているにもかかわらず、この専門知識は拡張が困難であり、現在の健康システムに支障をきたす。
VLM(Vision-Language Models)は、複雑な脳MRIを半自動でインタラクティブに解釈することで、この負担を軽減する機会を提供する。
しかしながら、それらは評価のための特別なベンチマークが欠如しているため、現在神経腫瘍学では使われていない。
UCSF-PDGM-VQAデータセット(以下、UCSF-PDGM-VQAデータセット)は、公共のUCSF-PDGMデータセットにおける473のグリオーマ関連MRI研究から2,387のQAペアから構成される。
さらに、6つの最先端ビジョン言語モデル(VLM)と、このデータセット上の1つの大きな言語モデルのパフォーマンスベースラインを確立する。
現在のモデルでは, マルチシーケンス3次元MRIスキャンを効果的に処理することができず, 視覚的特徴の抑制と言語先行への過度な依存が生じ, モダリティの崩壊を招いた。
これらの知見は、現在のモデル信頼性と臨床環境における安全性の欠如を浮き彫りにし、堅牢でドメイン特異的なVLMの開発を必要とした。
関連論文リスト
- Multimodal Deep Learning for Dynamic and Static Neuroimaging: Integrating MRI and fMRI for Alzheimer Disease Analysis [5.338598022966635]
アルツハイマー病(AD)、軽度認知障害、正常認知状態の分類にMRIとfMRIを統合した枠組みを提案する。
構造的特徴は3次元畳み込みニューラルネットワークを用いてMRIから抽出され、時間的特徴はfMRIシーケンスから学習される。
その結果,データ拡張により分類安定性と一般化が大幅に向上し,特にマルチモーダルな3DCNN-LSTMモデルが実現された。
論文 参考訳(メタデータ) (2026-03-09T12:58:45Z) - Generative Latent Representations of 3D Brain MRI for Multi-Task Downstream Analysis in Down Syndrome [3.344873290507966]
我々は3次元脳MRIスキャンをコンパクトな潜在空間表現に符号化し、生成的および予測的応用を実現する変分オートエンコーダを開発した。
以上の結果から,VAEは高い再建率を維持しつつ,重要な脳の特徴をとらえることができた。
論文 参考訳(メタデータ) (2026-02-14T11:50:57Z) - Decipher-MR: A Vision-Language Foundation Model for 3D MRI Representations [12.805804608410739]
Decipher-MRは、大規模なデータセットに基づいて訓練された3次元MRI固有の視覚言語基盤モデルである。
Decipher-MRは、自己指導型視覚学習とレポート誘導型テキスト監視を統合し、堅牢で一般化可能な表現を構築する。
以上の結果から,Decipher-MRはMRIベースのAIのスケーラブルで汎用的な基盤として確立され,臨床および研究領域における効率的な開発が促進される。
論文 参考訳(メタデータ) (2025-09-25T14:43:33Z) - MRN: Harnessing 2D Vision Foundation Models for Diagnosing Parkinson's Disease with Limited 3D MR Data [0.6183104361749774]
現在の臨床実践は、しばしばQSMおよびNM-MRI画像の診断バイオマーカーに依存している。
2次元視覚基礎モデル(VFM)を活用することで,これらの課題に対処する。
提案手法はMICCAI 2025 PDCADxFoundationチャレンジにおいて,300個のQSMとNM-MRIスキャンのみを用いたデータセットで86.4%の精度で達成された。
論文 参考訳(メタデータ) (2025-09-22T10:59:27Z) - Building a General SimCLR Self-Supervised Foundation Model Across Neurological Diseases to Advance 3D Brain MRI Diagnoses [2.4836875944302634]
3次元脳構造MRIのための汎用高分解能SimCLRベースSSL基盤モデルを提案する。
アルツハイマー病の予測にはラベル付きトレーニングサンプルの20%しか使用していない。
論文 参考訳(メタデータ) (2025-09-12T18:05:08Z) - A Unified Model for Compressed Sensing MRI Across Undersampling Patterns [69.19631302047569]
様々な計測アンサンプパターンと画像解像度に頑健な統合MRI再構成モデルを提案する。
我々のモデルは、拡散法よりも600$times$高速な推論で、最先端CNN(End-to-End VarNet)の4dBでSSIMを11%改善し、PSNRを4dB改善する。
論文 参考訳(メタデータ) (2024-10-05T20:03:57Z) - Brain3D: Generating 3D Objects from fMRI [78.46936519561298]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - Data and Physics Driven Learning Models for Fast MRI -- Fundamentals and
Methodologies from CNN, GAN to Attention and Transformers [72.047680167969]
本稿では,畳み込みニューラルネットワークや生成的敵ネットワークに基づく手法を含む,高速MRIのためのディープラーニングに基づくデータ駆動手法を紹介する。
MRI加速のための物理とデータ駆動モデルの結合に関する研究について詳述する。
最後に, 臨床応用について紹介し, マルチセンター・マルチスキャナー研究における高速MRI技術におけるデータ調和の重要性と説明可能なモデルについて述べる。
論文 参考訳(メタデータ) (2022-04-01T22:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。