論文の概要: Enhancing MedSAM with a Lightweight Box Predictor for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2606.04705v1
- Date: Wed, 03 Jun 2026 10:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.685213
- Title: Enhancing MedSAM with a Lightweight Box Predictor for Medical Image Segmentation
- Title(参考訳): 医用画像分割用軽量ボックス予測器によるMedSAMの強化
- Authors: Amirhossein Movahedisefat, Amirreza Fateh, Mohammad Reza Mohammadi,
- Abstract要約: 軽量なBox PredictorモジュールをMedSAMアーキテクチャに統合したセグメンテーションフレームワークを提案する。
Box Predictorは、ローカライズされたイメージ埋め込み機能を使用して、単一のユーザクリックから近似的なバウンディングボックスを推定する。
本手法は解剖学的構造と画像領域のセグメンテーション精度とロバスト性を改善する。
- 参考スコア(独自算出の注目度): 1.1852406625172218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation in medical imaging is a critical yet challenging task due to data scarcity and high variability across modalities. While foundation models like the Segment Anything Model (SAM) show promise, they often struggle with medical images without specific adaptation. Moreover, point prompts, despite being the most natural form of user interaction, provide insufficient spatial context for reliable segmentation, particularly when target structures are irregular or poorly contrasted. In this paper, we propose an enhanced segmentation framework that integrates a lightweight Box Predictor module into the MedSAM architecture. The Box Predictor estimates an approximate bounding box from a single user click using localized image embedding features, providing spatial guidance that reduces the ambiguity of point prompts, while introducing only 1.6M additional parameters and negligible inference overhead. We introduce a two-stage training pipeline where the Box Predictor is trained independently before being integrated into MedSAM. To validate the generalization capability of our method, we conduct extensive evaluations on four diverse datasets (FLARE22, BRISC, BUSI, LungSegDB) spanning distinct imaging modalities, including CT, MRI, and Ultrasound. Our method improves segmentation accuracy and robustness across varied anatomical structures and imaging domains, achieving Dice scores of 0.89 (BUSI), 0.93 (FLARE22), 0.88 (BRISC), and 0.98 (LungSegDB). Code is available at https://github.com/Amirhosseinmovahedi/MedSAM-BoxPredictor
- Abstract(参考訳): 医用画像におけるセマンティックセグメンテーションは、データ不足とモダリティ間の高いばらつきのため、重要かつ困難な課題である。
SAM(Segment Anything Model)のような基礎モデルは有望であるが、特定の適応なしには医療画像に苦しむことが多い。
さらに、ポイントプロンプトは、ユーザインタラクションの最も自然な形式であるにもかかわらず、特にターゲット構造が不規則または低コントラストである場合に、信頼できるセグメンテーションのための空間コンテキストが不十分である。
本稿では,軽量なBox PredictorモジュールをMedSAMアーキテクチャに統合したセグメンテーションフレームワークを提案する。
Box Predictorは、ローカライズされたイメージ埋め込み機能を使用して、単一のユーザクリックから近似的なバウンディングボックスを推定し、ポイントプロンプトのあいまいさを低減する空間ガイダンスを提供すると同時に、1.6Mの追加パラメータと無視可能な推論オーバーヘッドを導入する。
我々は、2段階のトレーニングパイプラインを導入し、Box PredictorはMedSAMに統合される前に独立してトレーニングされる。
本手法の一般化能力を検証するため,CT,MRI,超音波などの画像の異なる4種類のデータセット(FLARE22,BRISC,BUSI,LungSegDB)を広範囲に評価した。
本手法は解剖学的構造と画像領域のセグメンテーション精度と堅牢性を向上し,Diceスコア0.89(BUSI),0.93(FLARE22),0.88(BRISC),0.98(LungSegDB)を達成した。
コードはhttps://github.com/Amirhosseinmovahedi/MedSAM-BoxPredictorで入手できる。
関連論文リスト
- Boundary-Aware Test-Time Adaptation for Zero-Shot Medical Image Segmentation [12.159529070716824]
BA-TTA-SAMはテスト時間適応によるSAMのゼロショットセグメンテーション性能を向上させるテスト時間適応フレームワークである。
我々のフレームワークは、医用画像分割における最先端モデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-12-04T07:08:21Z) - VesSAM: Efficient Multi-Prompting for Segmenting Complex Vessel [68.24765319399286]
本稿では,2次元血管セグメンテーションに適した,強力で効率的なフレームワークであるVesSAMを提案する。
VesSAMは、(1)局所的なテクスチャ機能を強化する畳み込みアダプタ、(2)解剖学的プロンプトを融合するマルチプロンプトエンコーダ、(3)ジャグアーティファクトを減らす軽量マスクデコーダを統合する。
VesSAMは、最先端のPEFTベースのSAMを10%以上のDiceと13%のIoUで一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-02T15:47:05Z) - CLAPS: A CLIP-Unified Auto-Prompt Segmentation for Multi-Modal Retinal Imaging [47.04292769940597]
CLIP統合オートプロンプト(CLAPS)は,網膜イメージングにおける様々なタスクとモダリティをまたいだセグメンテーションを統一する新しい手法である。
私たちのアプローチは、CLIPベースの画像エンコーダを、大規模なマルチモーダル網膜データセット上で事前トレーニングすることから始まります。
タスクを統一し、曖昧さを解消するために、各画像のモダリティに固有の「モダリティシグネチャ」を付加したテキストプロンプトを使用する。
論文 参考訳(メタデータ) (2025-09-10T14:14:49Z) - MedCLIP-SAMv2: Towards Universal Text-Driven Medical Image Segmentation [2.2585213273821716]
MedCLIP-SAMv2はCLIPとSAMモデルを統合して臨床スキャンのセグメンテーションを行う新しいフレームワークである。
提案手法は,DHN-NCE(Decoupled Hard Negative Noise Contrastive Estimation)によるBiomedCLIPモデルの微調整を含む。
また,ゼロショットセグメンテーションラベルを弱教師付きパラダイム内で使用することにより,セグメンテーション品質をさらに向上する。
論文 参考訳(メタデータ) (2024-09-28T23:10:37Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - I-MedSAM: Implicit Medical Image Segmentation with Segment Anything [24.04558900909617]
提案するI-MedSAMは、連続表現とSAMの両方の利点を利用して、クロスドメイン能力と正確な境界線を求める。
トレーニング可能なパラメータが1.6Mしかない提案手法は、離散的および暗黙的を含む既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-28T00:43:52Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation [52.699139151447945]
医用画像の領域分割を行うために, SAMを2次元から3次元に変換する新しい適応法を提案する。
本モデルでは, 腎腫瘍, 膵腫瘍, 大腸癌の3つのタスクのうち8.25%, 29.87%, 10.11%の3つのタスクにおいて, ドメイン・オブ・ザ・アーティヴ・メディカル・イメージ・セグメンテーション・モデルより優れ, 肝腫瘍セグメンテーションでも同様の性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T12:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。