論文の概要: SSR: Semantic and Spatial Rectification for CLIP-based Weakly Supervised Segmentation
- arxiv url: http://arxiv.org/abs/2512.01701v1
- Date: Mon, 01 Dec 2025 14:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.88536
- Title: SSR: Semantic and Spatial Rectification for CLIP-based Weakly Supervised Segmentation
- Title(参考訳): SSR:CLIPに基づく弱監視セグメンテーションのための意味的・空間的整形
- Authors: Xiuli Bi, Die Xiao, Junchao Fan, Bin Xiao,
- Abstract要約: 本稿では,既存のCLIPに基づく弱教師付きセマンティックセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アプローチの限界に対処する新しいセマンティック・空間整合法を提案する。
具体的には、意味レベルでは、Cross-Modal Prototype Alignment (CMPA)は特徴空間アライメントを強制する対照的な学習メカニズムを確立する。
空間レベルでは、Superpixel-Guided Correction (SGC) はスーパーピクセルベースの空間先行情報を利用して、親和性伝播中の非ターゲット領域からの干渉を正確にフィルタリングする。
- 参考スコア(独自算出の注目度): 19.962252347191523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Contrastive Language-Image Pretraining (CLIP) has been widely applied to Weakly Supervised Semantic Segmentation (WSSS) tasks due to its powerful cross-modal semantic understanding capabilities. This paper proposes a novel Semantic and Spatial Rectification (SSR) method to address the limitations of existing CLIP-based weakly supervised semantic segmentation approaches: over-activation in non-target foreground regions and background areas. Specifically, at the semantic level, the Cross-Modal Prototype Alignment (CMPA) establishes a contrastive learning mechanism to enforce feature space alignment across modalities, reducing inter-class overlap while enhancing semantic correlations, to rectify over-activation in non-target foreground regions effectively; at the spatial level, the Superpixel-Guided Correction (SGC) leverages superpixel-based spatial priors to precisely filter out interference from non-target regions during affinity propagation, significantly rectifying background over-activation. Extensive experiments on the PASCAL VOC and MS COCO datasets demonstrate that our method outperforms all single-stage approaches, as well as more complex multi-stage approaches, achieving mIoU scores of 79.5% and 50.6%, respectively.
- Abstract(参考訳): 近年,クロスモーダル・セマンティック・セマンティック・セマンティック・セマンティック・セマンティクス(WSSS, Weakly Supervised Semantic Semantic Segmentation) タスクには,強力なクロスモーダル・セマンティクス理解機能により,CLIP (Contrastive Language- Image Pretraining) が広く採用されている。
本稿では,既存のCLIPに基づく弱教師付きセマンティックセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アプローチ(SSR)を提案する。
特に、セマンティックレベルでは、Cross-Modal Prototype Alignment (CMPA)は、特徴空間アライメントを強制する対照的な学習メカニズムを確立し、意味的相関性を高めながらクラス間オーバーラップを低減し、非ターゲット前景領域における過剰なアクティベーションを効果的に是正する。
PASCAL VOCとMS COCOデータセットの大規模な実験により、我々の手法はシングルステージアプローチやより複雑なマルチステージアプローチよりも優れており、それぞれ79.5%と50.6%のmIoUスコアが達成されている。
関連論文リスト
- HarmoCLIP: Harmonizing Global and Regional Representations in Contrastive Vision-Language Models [63.87966115136411]
HarmoCLIPはContrastive Language-Image Pre-training内のグローバルおよびリージョン表現を調和させるように設計された新しいフレームワークである。
本研究では,地域レベルでの表現能力を高めるために,地域調整管理戦略を導入する。
論文 参考訳(メタデータ) (2025-11-27T16:24:53Z) - Adaptive Spatial Augmentation for Semi-supervised Semantic Segmentation [51.645152962504056]
半教師付きセマンティックセグメンテーションでは、データ拡張は弱い一貫性の規則化フレームワークにおいて重要な役割を果たす。
空間増強はSSSSのモデルトレーニングに寄与するが,弱い面と強い面の間には一貫性のないマスクが生じる。
本稿では,各インスタンスのエントロピーに基づいて動的に拡張を調整する適応的拡張戦略を提案する。
論文 参考訳(メタデータ) (2025-05-29T13:35:48Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Multi-Grained Cross-modal Alignment for Learning Open-vocabulary
Semantic Segmentation from Text Supervision [23.931443799102663]
我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。
具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。
提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
論文 参考訳(メタデータ) (2024-03-06T13:43:36Z) - Spatial Structure Constraints for Weakly Supervised Semantic
Segmentation [100.0316479167605]
クラスアクティベーションマップ(CAM)は、オブジェクトの最も識別性の高い部分のみを見つけることができる。
注意伸縮の余剰なオブジェクトの過剰な活性化を軽減するために,弱い教師付きセマンティックセマンティックセグメンテーションのための空間構造制約(SSC)を提案する。
提案手法は,PASCAL VOC 2012とCOCOデータセットでそれぞれ72.7%,47.0%mIoUを達成した。
論文 参考訳(メタデータ) (2024-01-20T05:25:25Z) - Progressive Feature Self-reinforcement for Weakly Supervised Semantic
Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。
我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。
そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:21:52Z) - Region-level Contrastive and Consistency Learning for Semi-Supervised
Semantic Segmentation [30.1884540364192]
半教師付きセマンティックセグメンテーションのための領域レベルのコントラスト・一貫性学習フレームワーク(RC2L)を提案する。
具体的には、まず、地域マスクコントラスト(RMC)損失と地域特徴コントラスト(RFC)損失を、地域レベルのコントラスト特性を達成するために提案する。
提案する領域レベルのコントラストと一貫性の規則化に基づいて,半教師付きセマンティックセグメンテーションのための領域レベルのコントラストと一貫性の学習フレームワーク(RC2L)を開発する。
論文 参考訳(メタデータ) (2022-04-28T07:22:47Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Margin Preserving Self-paced Contrastive Learning Towards Domain
Adaptation for Medical Image Segmentation [51.93711960601973]
クロスモーダル医療画像セグメンテーションのための自己ペースコントラスト学習モデルを保存する新しいマージンを提案する。
プログレッシブに洗練されたセマンティックプロトタイプの指導により、埋め込み表現空間の識別性を高めるために、コントラスト損失を減少させる新しいマージンが提案される。
クロスモーダル心セグメンテーションタスクの実験は、MPSCLが意味セグメンテーション性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-03-15T15:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。