論文の概要: Beyond a Single Frame: Multi-Frame Spatially Grounded Reasoning Across Volumetric MRI
- arxiv url: http://arxiv.org/abs/2604.15808v1
- Date: Fri, 17 Apr 2026 08:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.810008
- Title: Beyond a Single Frame: Multi-Frame Spatially Grounded Reasoning Across Volumetric MRI
- Title(参考訳): 複数フレームの空間的背景を持つ1フレーム超えのMRI
- Authors: Lama Moukheiber, Caleb M. Yeung, Haotian Xue, Alec Helbling, Zelin Zhao, Yongxin Chen,
- Abstract要約: 本稿では,容積MRIを用いたマルチフレーム空間的推論のためのベンチマークSGMRI-VQAを紹介する。
各QAペアは、フレームインデックス付きバウンディングボックス座標を持つクリニック整列チェーン・オブ・シントトレースを含む。
境界ボックスによるQwen3-VL-8Bの微調整により,強いゼロショットベースラインのグラウンド化性能が一貫して向上することを示す。
- 参考スコア(独自算出の注目度): 22.439797107933355
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Spatial reasoning and visual grounding are core capabilities for vision-language models (VLMs), yet most medical VLMs produce predictions without transparent reasoning or spatial evidence. Existing benchmarks also evaluate VLMs on isolated 2D images, overlooking the volumetric nature of clinical imaging, where findings can span multiple frames or appear on only a few slices. We introduce Spatially Grounded MRI Visual Question Answering (SGMRI-VQA), a 41,307-pair benchmark for multi-frame, spatially grounded reasoning on volumetric MRI. Built from expert radiologist annotations in the fastMRI+ dataset across brain and knee studies, each QA pair includes a clinician-aligned chain-of-thought trace with frame-indexed bounding box coordinates. Tasks are organized hierarchically across detection, localization, counting/classification, and captioning, requiring models to jointly reason about what is present, where it is, and across which frames it extends. We benchmark 10 VLMs and show that supervised fine-tuning of Qwen3-VL-8B with bounding box supervision consistently improves grounding performance over strong zero-shot baselines, indicating that targeted spatial supervision is an effective path toward grounded clinical reasoning.
- Abstract(参考訳): 空間的推論と視覚的接地は視覚言語モデル(VLM)のコア機能であるが、ほとんどの医療用VLMは透明な推論や空間的証拠のない予測を生成する。
既存のベンチマークでは、分離された2D画像上でVLMを評価し、臨床画像の体積的な性質を見渡すことで、複数のフレームにまたがったり、ほんの数個のスライスにしか表示されない。
本稿では,多フレーム画像に対する41,307対のベンチマークであるSGMRI-VQA(Spatially Grounded MRI Visual Question Answering)を紹介する。
それぞれのQAペアには、フレームインデックス付きバウンディングボックス座標を備えたクリニアン整列チェーン・オブ・プリート・トレースが含まれている。
タスクは、検出、ローカライゼーション、カウント/分類、キャプションにまたがって階層的に整理され、モデルが現在何がどこにあるのか、どのフレームが伸びているのかを共同で判断する必要がある。
我々は10個のVLMをベンチマークし、境界ボックスによるQwen3-VL-8Bの微調整により、強いゼロショットベースラインに対するグラウンドニング性能が一貫して向上することを示し、ターゲット空間の監視がグラウンドド・クリニカル・ライティングへの効果的な経路であることを示唆した。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Thinking Like a Radiologist: A Dataset for Anatomy-Guided Interleaved Vision Language Reasoning in Chest X-ray Interpretation [40.235535792762285]
放射線診断は視覚検査と言語推論を繰り返す知覚過程である。
MMRad-IVL-22Kは,胸部X線解釈における視覚言語推論のための大規模データセットである。
論文 参考訳(メタデータ) (2026-02-13T11:49:32Z) - MedVL-SAM2: A unified 3D medical vision-language model for multimodal reasoning and prompt-driven segmentation [11.762545584252052]
本稿では,レポート生成,VQA,マルチパラダイムセグメンテーションをサポートする統合された3次元医療マルチモーダルモデルを提案する。
MedVL-SAM2は、画像レベルの推論とピクセルレベルの認識を3D医療画像用に調整された凝集性アーキテクチャによって統合する。
我々の統合アーキテクチャは、レポート生成、VQA、複数の3Dセグメンテーションタスクにまたがって最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2026-01-14T21:21:00Z) - Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging [3.6136448489318695]
医用イメージングを4つの協調エージェントに分解するエージェントフレームワークであるR4を提案する。
R4 は LLM-as-a-Judge のスコアを約 +1.7-2.5 で、mAP50 は 2.5-+3.5 の絶対点を強い単VLM ベースライン上で連続的に引き上げる。
論文 参考訳(メタデータ) (2026-01-13T03:44:06Z) - From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。
データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。
S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文 参考訳(メタデータ) (2025-10-26T15:57:14Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - XBench: A Comprehensive Benchmark for Visual-Language Explanations in Chest Radiography [6.447908430647854]
胸部X線におけるクロスモーダル解釈性を評価するための最初の体系的ベンチマークを示す。
我々は,クロスアテンションと類似性に基づくローカライズマップを用いた視覚的説明を生成する。
複数の病理組織を横断する放射線診断領域とのアライメントを定量的に評価した。
論文 参考訳(メタデータ) (2025-10-22T13:52:19Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - RAU: Reference-based Anatomical Understanding with Vision Language Models [26.06602931463068]
視覚言語モデル(VLM)を用いた参照型解剖学的理解のためのフレームワークであるRAUを紹介する。
まず,VLMが参照画像と対象画像の相対的空間的推論により解剖学的領域の同定を学習することを示す。
次に, VLM由来の空間的手がかりをSAM2の細粒度セグメンテーション能力とシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2025-09-26T14:32:03Z) - MedVSR: Medical Video Super-Resolution with Cross State-Space Propagation [63.38824041721275]
低解像度(LR)医療ビデオは、ビデオ超解像度(VSR)モデルに固有の課題を提示する。
本稿では,医療用VSRのためのフレームワークであるMedVSRを提案する。
MedVSRは既存のVSRモデルよりも性能と効率が優れていることを示す。
論文 参考訳(メタデータ) (2025-09-25T14:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。