論文の概要: SSP-SAM: SAM with Semantic-Spatial Prompt for Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2603.18086v1
- Date: Wed, 18 Mar 2026 08:26:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.754134
- Title: SSP-SAM: SAM with Semantic-Spatial Prompt for Referring Expression Segmentation
- Title(参考訳): SSP-SAM:表現セグメンテーション参照のための意味空間プロンプト付きSAM
- Authors: Wei Tang, Xuejing Liu, Yanpeng Sun, Zechao Li,
- Abstract要約: SAM(Segment Anything Model)は、画像のセグメンテーションに優れるが、自然言語を理解する能力は限られている。
本研究では,SSPエンコーダの統合によりSAMのセグメンテーション機能を完全に活用するフレームワークであるSSP-SAMを提案する。
SSP-SAMは、プロンプトジェネレータの参照表現を強化し、SAMが言語でガイドされる正確なマスクを生成するための高品質なSSPを生成する。
- 参考スコア(独自算出の注目度): 37.55469031169627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM) excels at general image segmentation but has limited ability to understand natural language, which restricts its direct application in Referring Expression Segmentation (RES). Toward this end, we propose SSP-SAM, a framework that fully utilizes SAM's segmentation capabilities by integrating a Semantic-Spatial Prompt (SSP) encoder. Specifically, we incorporate both visual and linguistic attention adapters into the SSP encoder, which highlight salient objects within the visual features and discriminative phrases within the linguistic features. This design enhances the referent representation for the prompt generator, resulting in high-quality SSPs that enable SAM to generate precise masks guided by language. Although not specifically designed for Generalized RES (GRES), where the referent may correspond to zero, one, or multiple objects, SSP-SAM naturally supports this more flexible setting without additional modifications. Extensive experiments on widely used RES and GRES benchmarks confirm the superiority of our method. Notably, our approach generates segmentation masks of high quality, achieving strong precision even at strict thresholds such as Pr@0.9. Further evaluation on the PhraseCut dataset demonstrates improved performance in open-vocabulary scenarios compared to existing state-of-the-art RES methods. The code and checkpoints are available at: https://github.com/WayneTomas/SSP-SAM.
- Abstract(参考訳): SAM(Segment Anything Model)は、一般的な画像セグメンテーションを排他するが、自然言語を理解する能力に制限があり、Referring Expression Segmentation (RES)における直接の応用を制限する。
この目的のために,SSP-SAMを提案する。これはSAMのセグメンテーション機能を完全に活用するフレームワークであり,セマンティック・空間プロンプト(SSP)エンコーダを統合している。
SSPエンコーダには視覚的および言語的アテンションアダプタが組み込まれており,視覚的特徴と言語的特徴の識別的フレーズが強調される。
この設計により、プロンプトジェネレータの参照表現が強化され、SAMが言語でガイドされる正確なマスクを生成できる高品質なSSPが生成される。
一般RES(Generalized RES)のために特別に設計されたものではないが、参照者は0、1、または複数のオブジェクトに対応できるが、SPP-SAMは追加の修正なしにこのより柔軟な設定を自然にサポートする。
広く使われているRESおよびGRESベンチマークの大規模な実験により,本手法の優位性が確認された。
提案手法は,Pr@0.9等の厳密なしきい値においても高い精度で,高品質なセグメンテーションマスクを生成する。
PhraseCutデータセットのさらなる評価は、既存の最先端RES手法と比較して、オープン語彙シナリオのパフォーマンス改善を示す。
コードとチェックポイントは、https://github.com/WayneTomas/SSP-SAM.comで入手できる。
関連論文リスト
- SAM3-I: Segment Anything with Instructions [86.92593395772029]
SAM3-Iは概念レベルの理解と命令レベルの推論をSAMファミリー内で統合する拡張フレームワークである。
我々は,概念,単純かつ複雑なレベルにまたがる構造的命令分類を設計し,多様な命令マスク対を持つデータセットを構築するためのスケーラブルなデータエンジンを開発する。
論文 参考訳(メタデータ) (2025-12-04T09:00:25Z) - Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decoder [18.236863512276187]
本稿では,MLLMビジョンエンコーダに符号化された視覚的特徴を,余分な視覚的エンコーダを導入することなく活用する新しいフレームワークを提案する。
さらに,MLLMの大規模言語モデル(LLM)によって出力される意味関連特徴と,詳細関連視覚特徴とを完全に統合した,詳細拡張型・意味整合型特徴融合モジュール(DSFF)を提案する。
我々の手法は一般にSAMベースの競合とSAMフリーの競合に勝り、性能とコストのバランスが良くなる。
論文 参考訳(メタデータ) (2025-08-06T06:06:52Z) - SAM-PTx: Text-Guided Fine-Tuning of SAM with Parameter-Efficient, Parallel-Text Adapters [0.5755004576310334]
本稿では,冷凍CLIP由来のテキスト埋め込みをクラスレベルのセマンティックガイダンスとして用いたSAM-PTxを提案する。
具体的には,SAMのイメージにテキスト埋め込みを注入し,セマンティクスによるセグメンテーションを可能にするParallel-Textという軽量アダプタを提案する。
固定テキスト埋め込みを入力として組み込むことで、純粋に空間的なプロンプトベースラインよりもセグメンテーション性能が向上することを示す。
論文 参考訳(メタデータ) (2025-07-31T23:26:39Z) - SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation [66.92696817276288]
SemiRESは、RESを実行するためにラベル付きデータとラベルなしデータの組み合わせを効果的に活用する半教師付きフレームワークである。
SemiRESはSegment Anything Model (SAM) を組み込んでいる。
利用可能な候補と正確なマスクが一致しない場合、Pixel-Wise Adjustment(PWA)戦略を開発する。
論文 参考訳(メタデータ) (2024-06-03T15:42:30Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Semantic-aware SAM for Point-Prompted Instance Segmentation [29.286913777078116]
本稿では,Segment Anything (SAM) を用いた費用対効果の高いカテゴリー別セグメンタを提案する。
この課題に対処するために、複数のインスタンス学習(MIL)と整合性を備えたSAMとポイントプロンプトを備えたセマンティック・アウェア・インスタンスネットワーク(SAPNet)を開発した。
SAPNetはSAMによって生成される最も代表的なマスクの提案を戦略的に選択し、セグメンテーションを監督する。
論文 参考訳(メタデータ) (2023-12-26T05:56:44Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。