論文の概要: SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2211.14813v2
- Date: Tue, 20 Jun 2023 06:36:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 04:59:13.913089
- Title: SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation
- Title(参考訳): SegCLIP:オープン語彙セマンティックセマンティックセグメンテーションのための学習可能なセンターによるパッチアグリゲーション
- Authors: Huaishao Luo, Junwei Bao, Youzheng Wu, Xiaodong He, Tianrui Li
- Abstract要約: オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
- 参考スコア(独自算出の注目度): 26.079055078561986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the contrastive language-image pre-training, e.g., CLIP, has
demonstrated promising results on various downstream tasks. The pre-trained
model can capture enriched visual concepts for images by learning from a large
scale of text-image data. However, transferring the learned visual knowledge to
open-vocabulary semantic segmentation is still under-explored. In this paper,
we propose a CLIP-based model named SegCLIP for the topic of open-vocabulary
segmentation in an annotation-free manner. The SegCLIP achieves segmentation
based on ViT and the main idea is to gather patches with learnable centers to
semantic regions through training on text-image pairs. The gathering operation
can dynamically capture the semantic groups, which can be used to generate the
final segmentation results. We further propose a reconstruction loss on masked
patches and a superpixel-based KL loss with pseudo-labels to enhance the visual
representation. Experimental results show that our model achieves comparable or
superior segmentation accuracy on the PASCAL VOC 2012 (+0.3% mIoU), PASCAL
Context (+2.3% mIoU), and COCO (+2.2% mIoU) compared with baselines. We release
the code at https://github.com/ArrowLuo/SegCLIP.
- Abstract(参考訳): 近年,clipのようなコントラスト型言語イメージ事前学習が,ダウンストリームタスクにおいて有望な結果を示している。
事前学習されたモデルは、大規模なテキスト画像データから学習することで、画像の豊富な視覚概念をキャプチャすることができる。
しかし、学習した視覚知識を開放的な意味セグメンテーションに移すことはまだ未検討である。
本稿では,open-vocabulary segmentationを無アノテーションで扱うために,segclipというクリップベースモデルを提案する。
SegCLIPはViTに基づくセグメンテーションを実現し,テキストイメージペアのトレーニングを通じて,学習可能なセンタをセマンティック領域に集める。
収集操作は、最終的なセグメンテーション結果を生成するために使用できるセマンティックグループを動的にキャプチャすることができる。
さらに,マスク付きパッチの再構成損失と擬似ラベル付きスーパーピクセルベースのKL損失を提案し,視覚的表現を高める。
実験の結果, PASCAL VOC 2012 (+0.3% mIoU), PASCAL Context (+2.3% mIoU), COCO (+2.2% mIoU) では, ベースラインと比較すると, 同等あるいは優れたセグメンテーション精度が得られた。
コードをhttps://github.com/ArrowLuo/SegCLIPでリリースします。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models [44.146292819267956]
大規模視覚言語モデル(VLM)は、画像領域と単語を暗黙的に関連付けることを学び、視覚的問題のようなタスクに有効である。
本稿では,OVSS(Plug-and-Play-Vocabulary Semantic)を提案する。
論文 参考訳(メタデータ) (2023-11-28T06:42:58Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training
of Image Segmentation Models [54.49581189337848]
本稿では,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。
提案手法は重み付きセグメンテーション学習法を利用して,重み付きセグメンテーションネットワークを事前訓練する。
実験の結果,ImageNetにソースデータセットとしてPSSLを伴って提案されたエンドツーエンドの事前トレーニング戦略が,さまざまなセグメンテーションモデルの性能向上に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T13:02:32Z) - ProtoCLIP: Prototypical Contrastive Language Image Pretraining [12.067061175987075]
このようなグループ化を強化するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。
ProtoCLIPは、画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。
ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
論文 参考訳(メタデータ) (2022-06-22T11:55:53Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。