論文の概要: Tuning-free Universally-Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2405.14294v1
- Date: Thu, 23 May 2024 08:13:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 18:14:32.483078
- Title: Tuning-free Universally-Supervised Semantic Segmentation
- Title(参考訳): チューニング不要なユニバーサルスーパービジョンセマンティックセマンティックセグメンテーション
- Authors: Xiaobo Yang, Xiaojin Gong,
- Abstract要約: 本稿では,CLIPによるSAMマスクの分類に基づく,チューニング不要なセマンティックセマンティックセマンティクスフレームワークを提案する。
マスクとテキストの埋め込みを密に調整し、オーバーヘッドのない性能向上を実現するために、差別バイアスに整合したCLIPを提案する。
次に、SAMマスクを分類するために、グローバルな一貫した一貫した構造を構築し、高品質な埋め込みの本質的な構造を明らかにする。
- 参考スコア(独自算出の注目度): 5.455525100072623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a tuning-free semantic segmentation framework based on classifying SAM masks by CLIP, which is universally applicable to various types of supervision. Initially, we utilize CLIP's zero-shot classification ability to generate pseudo-labels or perform open-vocabulary segmentation. However, the misalignment between mask and CLIP text embeddings leads to suboptimal results. To address this issue, we propose discrimination-bias aligned CLIP to closely align mask and text embedding, offering an overhead-free performance gain. We then construct a global-local consistent classifier to classify SAM masks, which reveals the intrinsic structure of high-quality embeddings produced by DBA-CLIP and demonstrates robustness against noisy pseudo-labels. Extensive experiments validate the efficiency and effectiveness of our method, and we achieve state-of-the-art (SOTA) or competitive performance across various datasets and supervision types.
- Abstract(参考訳): 本研究は,CLIPによるSAMマスクの分類に基づく,チューニング不要なセマンティックセマンティックセマンティクスフレームワークを提案する。
当初は、CLIPのゼロショット分類機能を利用して擬似ラベルを生成したり、オープン語彙セグメンテーションを行う。
しかし、マスクとCLIPテキストの埋め込みのミスアライメントは、最適以下の結果をもたらす。
この問題に対処するため、マスクとテキストの埋め込みを緊密に調整する差別バイアス対応CLIPを提案し、オーバーヘッドのないパフォーマンス向上を実現した。
そこで我々は,DBA-CLIPが生成する高品質な埋め込みの内在的構造を明らかにするSAMマスクを分類するために,グローバルな一貫した分類器を構築し,ノイズのある擬似ラベルに対する堅牢性を示す。
大規模な実験により,本手法の有効性と有効性を検証するとともに,各種データセットや監視タイプに対して,最先端のSOTA(State-of-the-art)や競争性能を実現する。
関連論文リスト
- PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation [69.37484603556307]
Un Semantic segmenting (USS)は、事前に定義されたラベルに頼ることなく、イメージをセグメント化する。
上記の問題を同時に解決するために,OMH (Optimally Matched Hierarchy) という新しいアプローチを導入する。
我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
論文 参考訳(メタデータ) (2024-03-11T09:46:41Z) - ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation [5.376142948115328]
本稿では,ZSASのためのCLIPおよびSAM協調フレームワークであるClipSAMを提案する。
ClipSAMの背後にある洞察は、CLIPのセマンティック理解機能を、異常なローカライゼーションと粗いセグメンテーションに活用することである。
本稿では,視覚的特徴と対話するためのUMCI(Unified Multi-scale Cross-modal Interaction)モジュールについて述べる。
論文 参考訳(メタデータ) (2024-01-23T11:20:03Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z) - Learning Class-Agnostic Pseudo Mask Generation for Box-Supervised
Semantic Segmentation [156.9155100983315]
ボックス教師付きセマンティクスセグメンテーションに合わせた,より正確な学習ベースのクラス非依存な擬似マスクジェネレータを求める。
この方法は、ボックス監視モデルとフル監視モデルの間のパフォーマンスギャップをさらに埋めることができます。
論文 参考訳(メタデータ) (2021-03-09T14:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。