論文の概要: Beyond Medical Diagnostics: How Medical Multimodal Large Language Models Think in Space
- arxiv url: http://arxiv.org/abs/2603.13800v1
- Date: Sat, 14 Mar 2026 07:17:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.416408
- Title: Beyond Medical Diagnostics: How Medical Multimodal Large Language Models Think in Space
- Title(参考訳): 医療診断を超えて:医療マルチモーダル大言語モデルが宇宙でどのように考えるか
- Authors: Quoc-Huy Trinh, Xi Ding, Yang Liu, Zhenyue Qin, Xingjian Li, Gorkem Durak, Halil Ertugrul Aktas, Elif Keles, Ulas Bagci, Min Xu,
- Abstract要約: 本稿では,空間的視覚的質問応答データを自律的に合成するエージェントパイプラインを提案する。
本研究では,医療MLLMにおける3次元空間インテリジェンス評価のための総合的なベンチマークであるSpatialMedを提案する。
- 参考スコア(独自算出の注目度): 14.735805321796745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual spatial intelligence is critical for medical image interpretation, yet remains largely unexplored in Multimodal Large Language Models (MLLMs) for 3D imaging. This gap persists due to a systemic lack of datasets featuring structured 3D spatial annotations beyond basic labels. In this study, we introduce an agentic pipeline that autonomously synthesizes spatial visual question-answering (VQA) data by orchestrating computational tools such as volume and distance calculators with multi-agent collaboration and expert radiologist validation. We present SpatialMed, the first comprehensive benchmark for evaluating 3D spatial intelligence in medical MLLMs, comprising nearly 10K question-answer pairs across multiple organs and tumor types. Our evaluations on 14 state-of-the-art MLLMs and extensive analyses reveal that current models lack robust spatial reasoning capabilities for medical imaging.
- Abstract(参考訳): 医用画像の解釈には視覚空間知能が不可欠であるが、3D画像のための多モード大言語モデル(MLLM)では、ほとんど探索されていない。
このギャップは、基本的なラベルを超えて構造化された3D空間アノテーションを特徴とするデータセットの体系的な欠如によって持続する。
本研究では,空間的視覚的質問応答(VQA)データを自律的に合成するエージェントパイプラインを提案する。
医療MLLMにおける3次元空間インテリジェンスを評価するための初の総合的ベンチマークであるSpatialMedについて述べる。
14種類の最先端MLLMの評価と広範囲な分析により,現在のモデルでは医用画像の空間的推論能力が不十分であることが判明した。
関連論文リスト
- MedVL-SAM2: A unified 3D medical vision-language model for multimodal reasoning and prompt-driven segmentation [11.762545584252052]
本稿では,レポート生成,VQA,マルチパラダイムセグメンテーションをサポートする統合された3次元医療マルチモーダルモデルを提案する。
MedVL-SAM2は、画像レベルの推論とピクセルレベルの認識を3D医療画像用に調整された凝集性アーキテクチャによって統合する。
我々の統合アーキテクチャは、レポート生成、VQA、複数の3Dセグメンテーションタスクにまたがって最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2026-01-14T21:21:00Z) - 3D-RAD: A Comprehensive 3D Radiology Med-VQA Dataset with Multi-Temporal Analysis and Diverse Diagnostic Tasks [22.761853189757772]
医用視覚質問応答 (Med-VQA) は, 臨床診断支援に有意な可能性を秘めている。
本稿では,ラジオグラフィCTスキャンを用いた3次元メドVQAの高速化を目的とした大規模データセットである3D-RADを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:55:42Z) - Read Like a Radiologist: Efficient Vision-Language Model for 3D Medical Imaging Interpretation [40.73779035606757]
3次元医用画像解釈において,放射線技師のワークフローを模倣したMS-VLMを導入する。
特に、放射線学者は、個々のスライスを連続的に分析し、スライスとビューにまたがる情報を合成することによって、3Dの医療画像を分析する。
MS-VLMは、スライス長の3次元医用画像と、異なる平面と位相から取得した複数の画像から有用なボリューム表現を得ることができる。
論文 参考訳(メタデータ) (2024-12-18T07:19:48Z) - Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model [17.69323209661274]
デュアル3D-2Dエンコーダアーキテクチャを統合した3次元医療MLLMであるMed-2E3を提案する。
2次元特徴を効果的に集約するために,テキストガイド型インタースライス(TG-IS)スコアリングモジュールを設計する。
大規模でオープンソースの医療用マルチモーダルデータセットの実験は、TG-ISがタスク固有の注意分布を示すことを示した。
論文 参考訳(メタデータ) (2024-11-19T09:59:59Z) - Brain3D: Generating 3D Objects from fMRI [78.46936519561298]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。