論文の概要: Bridging the Perception-Cognition Gap:Re-engineering SAM2 with Hilbert-Mamba for Robust VLM-based Medical Diagnosis
- arxiv url: http://arxiv.org/abs/2512.24013v1
- Date: Tue, 30 Dec 2025 06:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.297801
- Title: Bridging the Perception-Cognition Gap:Re-engineering SAM2 with Hilbert-Mamba for Robust VLM-based Medical Diagnosis
- Title(参考訳): パーセプション認知ギャップ:Hilbert-Mambaを併用したSAM2のロバストVLM診断への応用
- Authors: Hao Wu, Hui Li, Yiyun Su,
- Abstract要約: Hilbert-VLMと呼ばれる新しい2段階核融合フレームワークを提案する。
このフレームワークは、正確な病変分割のためにHilbertMed-SAMモジュールを利用する。
また,Hilbert-Mamba Cross-Attention (HMCA) 機構とスケールアウェアデコーダも導入した。
- 参考スコア(独自算出の注目度): 4.42873214472599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies suggest that Visual Language Models (VLMs) hold great potential for tasks such as automated medical diagnosis. However, processing complex three-dimensional (3D) multimodal medical images poses significant challenges - specifically, the effective integration of complementary information and the occasional oversight of subtle yet critical pathological features. To address these issues, we present a novel two-stage fusion framework termed Hilbert-VLM. This framework leverages the HilbertMed-SAM module for precise lesion segmentation, with the generated multimodal enhanced prompts then guiding the VLM toward accurate disease classification. Our key innovation lies in the systematic redesign of the Segment Anything Model 2 (SAM2) architecture: we incorporate Hilbert space-filling curves into the scanning mechanism of the Mamba State Space Model (SSM) to maximize the preservation of spatial locality in 3D data, a property critical for medical image analysis. We also introduce a novel Hilbert-Mamba Cross-Attention (HMCA) mechanism and a scale-aware decoder to capture fine-grained details. Meanwhile, the prompt enhancement module unifies segmentation masks and their corresponding textual attributes into an information-dense prompt to support VLM inference. Extensive experiments were conducted to validate the effectiveness of the Hilbert-VLM model. On the BraTS2021 segmentation benchmark, it achieves a Dice score of 82.35 percent, with a diagnostic classification accuracy (ACC) of 78.85 percent. These results demonstrate that the proposed model offers substantial potential to improve the accuracy and reliability of medical VLM-based analysis.
- Abstract(参考訳): 近年の研究では、視覚言語モデル(VLM)が、自動診断などのタスクにおいて大きな可能性を秘めていることが示唆されている。
しかし、複雑な3次元(3D)マルチモーダル・メディカル・イメージの処理は、特に補完情報の効果的な統合と、微妙で批判的な病理学的特徴の監視という重要な課題を生じさせる。
これらの問題に対処するため、Hilbert-VLMと呼ばれる新しい2段階融合フレームワークを提案する。
このフレームワークは、HilbertMed-SAMモジュールを正確な病変のセグメンテーションに利用し、生成されたマルチモーダル強化プロンプトを使用して、VLMを正確な疾患分類へと導く。
我々の重要な革新は、Segment Anything Model 2 (SAM2) アーキテクチャの体系的な再設計にある: ヒルベルト空間充填曲線をMamba State Space Model (SSM) の走査機構に組み込んで、3Dデータにおける空間的局所性の保存を最大化する。
また,Hilbert-Mamba Cross-Attention (HMCA) 機構とスケールアウェア・デコーダを導入し,細かな詳細を捉える。
一方、プロンプト拡張モジュールは、セグメンテーションマスクとその対応するテキスト属性を情報密度プロンプトに統合し、VLM推論をサポートする。
Hilbert-VLMモデルの有効性を検証するために大規模な実験を行った。
BraTS2021セグメンテーションのベンチマークでは、Diceスコアは82.35パーセント、診断分類精度は78.85パーセントである。
これらの結果から,提案モデルが医療用VLM分析の精度と信頼性を向上させる上で有意義な可能性を示唆した。
関連論文リスト
- Forging a Dynamic Memory: Retrieval-Guided Continual Learning for Generalist Medical Foundation Models [45.285970665585914]
本稿では,継続的学習のための包括的枠組みを提案する。
モデル微調整のためのリアルタイムガイダンスを提供するマルチモーダル多層RAGシステムを用いる。
動的知識蒸留フレームワークを導入する。
論文 参考訳(メタデータ) (2025-12-15T08:09:40Z) - DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights [54.87947751720332]
脳腫瘍の正確なセグメンテーションは、臨床診断と治療に重要である。
マンバを拠点とするState Space Modelsは、有望なパフォーマンスを示している。
本稿では,計算オーバーヘッドを最小限に抑えながら,マルチスケールの長距離依存関係をキャプチャするマルチ解像度双方向マンバを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:31:21Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - ReCoGNet: Recurrent Context-Guided Network for 3D MRI Prostate Segmentation [11.248082139905865]
アノテーション付きデータとしてMRIシーケンスをモデル化するハイブリッドアーキテクチャを提案する。
本手法では, 深層保存型DeepVLab3バックボーンを用いて, それぞれのMRIスライスから高レベルなセマンティック特徴を抽出し, コンブLSTM層で構築した再帰的畳み込みヘッドを用いて, スライス間の情報統合を行う。
現状の2D, 3Dセグメンテーションモデルと比較して, 精度, リコール, IoU, Dice similarity Coefficient (DSC) およびロバストネスの点で優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-24T14:56:55Z) - Improving 3D Medical Image Segmentation at Boundary Regions using Local Self-attention and Global Volume Mixing [14.0825980706386]
ボリューム・メディカル・イメージ・セグメンテーションは、与えられた3次元ボリューム・メディカル・イメージをボクセルレベルの精度で正確に分類することを目的とする医用画像解析の基本的な問題である。
本研究では,3次元医用画像セグメンテーションにおける局所的およびグローバルな依存関係を明示的に捉えることを目的とした,階層型エンコーダデコーダベースの新しいフレームワークを提案する。
提案フレームワークは,局所的なボリュームベースの自己アテンションを利用して局所的な依存関係を高解像度でエンコードし,低解像度の特徴表現でグローバルな依存関係をキャプチャする新しいボリュームミキサを導入する。
論文 参考訳(メタデータ) (2024-10-20T11:08:38Z) - Towards Synergistic Deep Learning Models for Volumetric Cirrhotic Liver Segmentation in MRIs [1.5228650878164722]
世界的死亡の主な原因である肝硬変は、効果的な疾患モニタリングと治療計画のためにROIを正確に区分する必要がある。
既存のセグメンテーションモデルは、複雑な機能インタラクションをキャプチャして、さまざまなデータセットをまたいだ一般化に失敗することが多い。
本稿では、補間潜在空間を拡張的特徴相互作用モデリングに活用する新しい相乗論的理論を提案する。
論文 参考訳(メタデータ) (2024-08-08T14:41:32Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - 3D Medical Image Segmentation based on multi-scale MPU-Net [5.393743755706745]
本稿では,患者のCT画像に対する腫瘍分割モデルMPU-Netを提案する。
グローバルアテンション機構を備えたTransformerにインスパイアされている。
ベンチマークモデルであるU-Netと比較して、MPU-Netは優れたセグメンテーション結果を示す。
論文 参考訳(メタデータ) (2023-07-11T20:46:19Z) - Modelling the Distribution of 3D Brain MRI using a 2D Slice VAE [66.63629641650572]
本研究では,2次元スライスVAEとガウスモデルを組み合わせた3次元MR脳の体積分布をモデル化する手法を提案する。
また,本研究では,脳解剖学に適合するセグメンテーションの精度を定量的に評価する新たなボリューム評価手法を提案する。
論文 参考訳(メタデータ) (2020-07-09T13:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。