論文の概要: MedVL-SAM2: A unified 3D medical vision-language model for multimodal reasoning and prompt-driven segmentation
- arxiv url: http://arxiv.org/abs/2601.09879v1
- Date: Wed, 14 Jan 2026 21:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.902942
- Title: MedVL-SAM2: A unified 3D medical vision-language model for multimodal reasoning and prompt-driven segmentation
- Title(参考訳): MedVL-SAM2:マルチモーダル推論とプロンプト駆動セグメンテーションのための統合された3次元医用視覚言語モデル
- Authors: Yang Xing, Jiong Wu, Savas Ozdemir, Ying Zhang, Yang Yang, Wei Shao, Kuang Gong,
- Abstract要約: 本稿では,レポート生成,VQA,マルチパラダイムセグメンテーションをサポートする統合された3次元医療マルチモーダルモデルを提案する。
MedVL-SAM2は、画像レベルの推論とピクセルレベルの認識を3D医療画像用に調整された凝集性アーキテクチャによって統合する。
我々の統合アーキテクチャは、レポート生成、VQA、複数の3Dセグメンテーションタスクにまたがって最先端のパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 11.762545584252052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in medical vision-language models (VLMs) has achieved strong performance on image-level text-centric tasks such as report generation and visual question answering (VQA). However, achieving fine-grained visual grounding and volumetric spatial reasoning in 3D medical VLMs remains challenging, particularly when aiming to unify these capabilities within a single, generalizable framework. To address this challenge, we proposed MedVL-SAM2, a unified 3D medical multimodal model that concurrently supports report generation, VQA, and multi-paradigm segmentation, including semantic, referring, and interactive segmentation. MedVL-SAM2 integrates image-level reasoning and pixel-level perception through a cohesive architecture tailored for 3D medical imaging, and incorporates a SAM2-based volumetric segmentation module to enable precise multi-granular spatial reasoning. The model is trained in a multi-stage pipeline: it is first pre-trained on a large-scale corpus of 3D CT image-text pairs to align volumetric visual features with radiology-language embeddings. It is then jointly optimized with both language-understanding and segmentation objectives using a comprehensive 3D CT segmentation dataset. This joint training enables flexible interaction via language, point, or box prompts, thereby unifying high-level visual reasoning with spatially precise localization. Our unified architecture delivers state-of-the-art performance across report generation, VQA, and multiple 3D segmentation tasks. Extensive analyses further show that the model provides reliable 3D visual grounding, controllable interactive segmentation, and robust cross-modal reasoning, demonstrating that high-level semantic reasoning and precise 3D localization can be jointly achieved within a unified 3D medical VLM.
- Abstract(参考訳): 医用視覚言語モデル(VLM)の最近の進歩は、レポート生成や視覚質問応答(VQA)といった画像レベルのテキスト中心のタスクにおいて、高いパフォーマンスを達成している。
しかし、3次元医用VLMにおいて、細粒度な視覚的接地と体積空間的推論を実現することは、特に単一の一般化可能なフレームワークでこれらの能力を統一しようとする場合、依然として困難である。
この課題に対処するため、我々はMedVL-SAM2を提案し、レポート生成、VQA、マルチパラダイムセグメンテーションを同時にサポートし、セグメンテーション、参照、対話的セグメンテーションを含む3次元医療マルチモーダルモデルを提案した。
MedVL-SAM2は、画像レベルの推論とピクセルレベルの認識を、3D医療画像用に調整された密集したアーキテクチャで統合し、SAM2ベースのボリュームセグメンテーションモジュールを組み込んで、正確な多重グラニュラ空間推論を可能にする。
このモデルは多段階のパイプラインで訓練されており、まず3次元CT画像テキストペアの大規模コーパスで事前訓練され、体積的視覚特徴と放射線学的な埋め込みとを一致させる。
その後、包括的3次元CTセグメンテーションデータセットを使用して、言語理解とセグメンテーションの目的を共同で最適化する。
このジョイントトレーニングは、言語、ポイント、またはボックスプロンプトを介して柔軟な相互作用を可能にし、それによって空間的に正確な位置付けと高レベルの視覚的推論を統一する。
我々の統合アーキテクチャは、レポート生成、VQA、複数の3Dセグメンテーションタスクにまたがって最先端のパフォーマンスを提供する。
さらに,高レベルなセマンティック推論と高精度な3次元局所化が統合された3次元医用VLM内で共同で達成できることを実証し,信頼性の高い3次元視覚的グラウンドニング,制御可能な対話的セグメンテーション,堅牢なクロスモーダル推論を提供することを示した。
関連論文リスト
- SwinTF3D: A Lightweight Multimodal Fusion Approach for Text-Guided 3D Medical Image Segmentation [0.30586855806896035]
テキスト誘導型3次元医用画像分割のための視覚的・言語的表現を統一する軽量多モード融合手法であるSwinTF3Dを提案する。
SwinTF3Dは、コンパクトなアーキテクチャにもかかわらず、複数の臓器で競合するDiceとIoUのスコアを達成している。
論文 参考訳(メタデータ) (2025-12-28T11:00:05Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - Enhancing 3D Medical Image Understanding with Pretraining Aided by 2D Multimodal Large Language Models [5.020980730631682]
既存の3D医療畳み込みとトランスフォーマーベースの自己教師付き学習(SSL)手法は、しばしば深い意味理解を欠いている。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、テキスト記述による画像理解を強化するための有望なアプローチを提供する。
Med3DInsightは、3D画像エンコーダと2D MLLMを特別に設計された平面スライス対応トランスモジュールを介して統合する新しい事前学習フレームワークである。
論文 参考訳(メタデータ) (2025-09-11T00:12:59Z) - VELVET-Med: Vision and Efficient Language Pre-training for Volumetric Imaging Tasks in Medicine [11.993301266706139]
我々は,3次元CTや関連する放射線学報告など,限られたボリュームデータを対象とした視覚言語事前学習フレームワーク「textbfVELVET-Med」を提案する。
本研究は,ボリューム医療画像とそれに対応する臨床物語に埋め込まれた,豊かな空間的・意味的関係を明らかにすることを目的としている。
結果として得られるエンコーダは強い転送可能性を示し、幅広い下流タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-16T17:08:43Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Read Like a Radiologist: Efficient Vision-Language Model for 3D Medical Imaging Interpretation [40.73779035606757]
3次元医用画像解釈において,放射線技師のワークフローを模倣したMS-VLMを導入する。
特に、放射線学者は、個々のスライスを連続的に分析し、スライスとビューにまたがる情報を合成することによって、3Dの医療画像を分析する。
MS-VLMは、スライス長の3次元医用画像と、異なる平面と位相から取得した複数の画像から有用なボリューム表現を得ることができる。
論文 参考訳(メタデータ) (2024-12-18T07:19:48Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - T3D: Advancing 3D Medical Vision-Language Pre-training by Learning Multi-View Visual Consistency [32.57915952175522]
3D医療ビジョン言語による事前トレーニングは、大規模で一般公開された3D医療画像レポートデータセットが欠如しているため、まだ探索されていない。
このギャップを埋めるために、最初の、そして最大の*public** 3Dボリュームレポートデータセットである*CT-3Dlots**を紹介します。
提案する**T3D*フレームワークは,単純なCLIPスタイルのアライメントを超えて,3次元医用画像の理解を促進する。
以上の結果から,T3D は既存の vSSL やマルチモーダル手法を一貫して上回り,ゼロショットや微調整能力に優れていた。
論文 参考訳(メタデータ) (2023-12-03T23:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。