論文の概要: SAM-MI: A Mask-Injected Framework for Enhancing Open-Vocabulary Semantic Segmentation with SAM
- arxiv url: http://arxiv.org/abs/2511.20027v1
- Date: Tue, 25 Nov 2025 07:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.345873
- Title: SAM-MI: A Mask-Injected Framework for Enhancing Open-Vocabulary Semantic Segmentation with SAM
- Title(参考訳): SAM-MI:オープン語彙セマンティックセマンティックセマンティックセグメンテーションをSAMで強化するためのマスク注入フレームワーク
- Authors: Lin Chen, Yingjian Zhu, Qi Yang, Xin Niu, Kun Ding, Shiming Xiang,
- Abstract要約: Mask-injected framework SAM-MIはSAMとOVSSモデルを統合し、課題に対処する。
SAM-MIはテキスト誘導スパースポイントプロンプターを使用して、以前の密度の強いグリッドのようなプロンプトの代わりにSAMのスパースプロンプターをサンプリングする。
DMIにはSAM生成マスクが組み込まれており、ラベルと直接組み合わせるのではなく、低周波と高周波を別々に誘導する。
- 参考スコア(独自算出の注目度): 25.136857576951282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary semantic segmentation (OVSS) aims to segment and recognize objects universally. Trained on extensive high-quality segmentation data, the segment anything model (SAM) has demonstrated remarkable universal segmentation capabilities, offering valuable support for OVSS. Although previous methods have made progress in leveraging SAM for OVSS, there are still some challenges: (1) SAM's tendency to over-segment and (2) hard combinations between fixed masks and labels. This paper introduces a novel mask-injected framework, SAM-MI, which effectively integrates SAM with OVSS models to address these challenges. Initially, SAM-MI employs a Text-guided Sparse Point Prompter to sample sparse prompts for SAM instead of previous dense grid-like prompts, thus significantly accelerating the mask generation process. The framework then introduces Shallow Mask Aggregation (SMAgg) to merge partial masks to mitigate the SAM's over-segmentation issue. Finally, Decoupled Mask Injection (DMI) incorporates SAM-generated masks for guidance at low-frequency and high-frequency separately, rather than directly combining them with labels. Extensive experiments on multiple benchmarks validate the superiority of SAM-MI. Notably, the proposed method achieves a 16.7% relative improvement in mIoU over Grounded-SAM on the MESS benchmark, along with a 1.6$\times$ speedup. We hope SAM-MI can serve as an alternative methodology to effectively equip the OVSS model with SAM.
- Abstract(参考訳): Open-vocabulary semantic segmentation (OVSS)は、オブジェクトを普遍的にセグメンテーションし、認識することを目的としている。
広範な高品質セグメンテーションデータに基づいて訓練されたセグメンテーションモデル(SAM)は、優れた普遍的なセグメンテーション機能を示し、OVSSの貴重なサポートを提供している。
従来の方法ではOVSSにSAMを活用できたが,(1) SAMの過密傾向,(2) 固定マスクとラベルの硬い組み合わせといった課題がまだ残っている。
本稿では,SAMをOVSSモデルと効果的に統合し,これらの課題に対処する新しいマスク注入フレームワークSAM-MIを提案する。
SAM-MIは当初、以前の密度の強いグリッドのようなプロンプトの代わりにSAMのスパースプロンプトをサンプリングするためにテキスト誘導スパースポイントプロンプターを使用しており、マスク生成プロセスを著しく加速している。
次に、Shallow Mask Aggregation (SMAgg)を導入し、部分マスクをマージしてSAMの過剰セグメンテーション問題を緩和する。
最後に、DMI(Decoupled Mask Injection)はSAM生成マスクをラベルと直接結合するのではなく、低周波と高周波で個別に誘導する。
複数のベンチマークで大規模な実験を行い、SAM-MIの優位性を検証した。
特に,提案手法は,MESSベンチマークのGrounded-SAMよりもmIoUが16.7%向上し,1.6$\times$の高速化を実現している。
我々は,SAM-MIがOVSSモデルにSAMを効果的に装備するための代替手法として機能することを期待している。
関連論文リスト
- SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement [40.37217744643069]
マスク改善タスクにSAMを適用することで,汎用的で効率的なアプローチを提案する。
具体的には,SAMの多様な入力プロンプトをマイニングするためのマルチプロンプト掘削手法を提案する。
ターゲットデータセット上のジェネリックSAMRefinerのパフォーマンスをさらに向上するため、IoU適応ステップを追加してSAMRefiner++にメソッドを拡張します。
論文 参考訳(メタデータ) (2025-02-10T18:33:15Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - Segment Anything without Supervision [65.93211374889196]
高速かつ自動的な全画像分割のためのUnsupervised SAM(UnSAM)を提案する。
UnSAMは、視覚シーンの階層構造を「発見」するために、分割・コンカ戦略を利用する。
教師付きSAMは自己教師付きラベルの恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:47:32Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation [19.65118388712439]
本稿では,新しいプロンプト駆動型アダプタであるPrompt Adapter Segment Anything Model(PA-SAM)を紹介する。
PA-SAMはプロンプトアダプタを専用にトレーニングすることで、画像から詳細な情報を抽出し、スパースレベルとディーププロンプトレベルの両方でマスクデコーダ機能を最適化する。
実験の結果,PA-SAMは他のSAM法よりも高品質,ゼロショット,オープンセットのセグメンテーションで優れていた。
論文 参考訳(メタデータ) (2024-01-23T19:20:22Z) - Compositional Oil Spill Detection Based on Object Detector and Adapted Segment Anything Model from SAR Images [3.2843040151689586]
本稿では,オブジェクト検出器(YOLOv8など),SAM(Adapted Segment Anything Model),OMF(Ordered Mask Fusion)モジュールからなる複合オイル流出検出フレームワークSAM-OILを提案する。
SAM-OILは,石油流出検出における強力なSAMの最初の応用である。特に,SAM-OIL戦略では,YOLOv8を用いて油流出関連物のカテゴリとバウンディングボックスを取得し,適応SAMにバウンディングボックスを入力し,カテゴリ非依存マスクを検索し,最終的にOMFモジュールを用いてマスクとカテゴリを融合する。
論文 参考訳(メタデータ) (2024-01-15T07:03:10Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。