論文の概要: LoGSAM: Parameter-Efficient Cross-Modal Grounding for MRI Segmentation
- arxiv url: http://arxiv.org/abs/2603.17576v1
- Date: Wed, 18 Mar 2026 10:33:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.647345
- Title: LoGSAM: Parameter-Efficient Cross-Modal Grounding for MRI Segmentation
- Title(参考訳): LoGSAM:MRIセグメンテーションのためのパラメータ効率の良いクロスモーダルグラウンド
- Authors: Mohammad Robaitul Islam Bhuiyan, Sheethal Bhat, Melika Qahqaie, Tri-Thien Nguyen, Paula Andrea Pérez Toro, Tomas Arias Vergara, Andreas Maier,
- Abstract要約: 基礎モデルに基づくローカライゼーションとセグメンテーションのためのテキストプロンプトに変換するパラメータ効率のフレームワークであるLoGSAMを提案する。
これらのプロンプトは、LoRA適応型視覚言語検出モデルであるGrounding DINOを介して、テキスト条件の腫瘍局在を誘導する。
健診12例のMRI画像に対して, ドイツの放射線技師の指示による全パイプラインの評価を行い, 症例レベルの精度91.7%を得た。
- 参考スコア(独自算出の注目度): 5.967422994926725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise localization and delineation of brain tumors using Magnetic Resonance Imaging (MRI) are essential for planning therapy and guiding surgical decisions. However, most existing approaches rely on task-specific supervised models and are constrained by the limited availability of annotated data. To address this, we propose LoGSAM, a parameter-efficient, detection-driven framework that transforms radiologist dictation into text prompts for foundation-model-based localization and segmentation. Radiologist speech is first transcribed and translated using a pretrained Whisper ASR model, followed by negation-aware clinical NLP to extract tumor-specific textual prompts. These prompts guide text-conditioned tumor localization via a LoRA-adapted vision-language detection model, Grounding DINO (GDINO). The LoRA adaptation updates using 5% of the model parameters, thereby enabling computationally efficient domain adaptation while preserving pretrained cross-modal knowledge. The predicted bounding boxes are used as prompts for MedSAM to generate pixel-level tumor masks without any additional fine-tuning. Conditioning the frozen MedSAM on LoGSAM-derived priors yields a state-of-the-art dice score of 80.32% on BRISC 2025. In addition, we evaluate the full pipeline using German dictations from a board-certified radiologist on 12 unseen MRI scans, achieving 91.7% case-level accuracy. These results highlight the feasibility of constructing a modular, speech-to-segmentation pipeline by intelligently leveraging pretrained foundation models with minimal parameter updates.
- Abstract(参考訳): 磁気共鳴イメージング(MRI)を用いた脳腫瘍の正確な局所化とデライン化は,外科的治療の計画と指導に不可欠である。
しかし、既存のほとんどのアプローチはタスク固有の教師付きモデルに依存しており、注釈付きデータの可用性に制限されている。
そこで本稿では, 基礎モデルに基づくローカライゼーションとセグメンテーションのためのテキストプロンプトにラジオロジカル予測を変換する, パラメータ効率, 検出駆動型フレームワークであるLoGSAMを提案する。
放射線医学的音声は、まず事前訓練されたWhisper ASRモデルを用いて書き起こされ翻訳され、その後、腫瘍特異的なテキストプロンプトを抽出する否定型臨床NLPが続く。
これらのプロンプトは、LoRA適応視覚言語検出モデルであるGunding DINO(GDINO)を介して、テキスト条件の腫瘍局在を誘導する。
モデルパラメータの5%を使用してLoRA適応を更新することにより、事前訓練されたクロスモーダル知識を保持しながら、計算効率の良いドメイン適応を可能にする。
予測されたバウンディングボックスは、MedSAMが追加の微調整なしでピクセルレベルの腫瘍マスクを生成するプロンプトとして使用される。
LoGSAM由来の前駆体に凍結したメドSAMを条件にすると、BRISC 2025では最先端のサイコロスコアが80.32%となる。
また,12例のMRI検査において,検診医の独知による全パイプラインの評価を行い,91.7%の検診精度が得られた。
これらの結果は,事前学習した基礎モデルを最小限のパラメータ更新でインテリジェントに活用することにより,モジュール型音声合成パイプラインの構築の可能性を強調した。
関連論文リスト
- Glioblastoma Overall Survival Prediction With Vision Transformers [6.318465743962574]
グリオ芽腫は最も攻撃的で一般的な脳腫瘍の1つで、生存期間は10~15ヶ月である。
本研究では,MRI画像を用いた総合生存(OS)予測のための新しい人工知能(AI)手法を提案する。
我々は視覚変換器(ViT)を用いてMRI画像から直接隠れた特徴を抽出し,腫瘍のセグメンテーションの必要性を排除した。
提案したモデルは、BRATSデータセットで評価され、テストセット上で62.5%の精度を達成した。
論文 参考訳(メタデータ) (2025-08-04T13:59:57Z) - GBT-SAM: Adapting a Foundational Deep Learning Model for Generalizable Brain Tumor Segmentation via Efficient Integration of Multi-Parametric MRI Data [5.7802171590699984]
GBT-SAMはパラメータ効率のよいディープラーニングフレームワークで,Segment Anything Modelをmp-MRIデータに適用する。
本モデルは,深度認識モジュールを組み込んだ2段階の微調整戦略により,スライス間相関を抽出する。
BraTSアダルトグリオーマデータセットで93.54のDiceスコアを達成し、メニンギオーマ、小児グリオーマ、サブサハラグリオーマデータセットで堅牢なパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-06T11:18:22Z) - ContextMRI: Enhancing Compressed Sensing MRI through Metadata Conditioning [51.26601171361753]
本稿では, 微細なメタデータを再構成プロセスに統合したMRI用テキスト条件拡散モデルであるContextMRIを提案する。
メタデータの忠実度はスライス位置やコントラストから患者年齢、性別、病理まで増加し、体系的に再構築性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-08T05:15:43Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - SMRD: SURE-based Robust MRI Reconstruction with Diffusion Models [76.43625653814911]
拡散モデルは、高い試料品質のため、MRIの再生を加速するために人気を博している。
推論時に柔軟にフォワードモデルを組み込んだまま、効果的にリッチなデータプリエントとして機能することができる。
拡散モデル(SMRD)を用いたSUREに基づくMRI再構成を導入し,テスト時の堅牢性を向上する。
論文 参考訳(メタデータ) (2023-10-03T05:05:35Z) - ssVERDICT: Self-Supervised VERDICT-MRI for Enhanced Prostate Tumour
Characterisation [2.755232740505053]
トレーニングデータなしでVERDICT推定パラメータマップを適合させる自己教師型ニューラルネットワーク。
本研究では,SsVERDICTの性能を拡散MRIモデルに適合する2つの確立されたベースライン法と比較する。
論文 参考訳(メタデータ) (2023-09-12T14:31:33Z) - A Long Short-term Memory Based Recurrent Neural Network for
Interventional MRI Reconstruction [50.1787181309337]
本稿では,畳み込み長短期記憶(Conv-LSTM)に基づくリカレントニューラルネットワーク(Recurrent Neural Network, RNN)を提案する。
提案アルゴリズムは,DBSのリアルタイムi-MRIを実現する可能性があり,汎用的なMR誘導介入に使用できる。
論文 参考訳(メタデータ) (2022-03-28T14:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。