論文の概要: DenseCLIP: Extract Free Dense Labels from CLIP
- arxiv url: http://arxiv.org/abs/2112.01071v1
- Date: Thu, 2 Dec 2021 09:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 14:05:42.581589
- Title: DenseCLIP: Extract Free Dense Labels from CLIP
- Title(参考訳): DenseCLIP: CLIPから無料のDense Labelsを抽出する
- Authors: Chong Zhou, Chen Change Loy, Bo Dai
- Abstract要約: 対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
- 参考スコア(独自算出の注目度): 130.3830819077699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has made a remarkable
breakthrough in open-vocabulary zero-shot image recognition. Many recent
studies leverage the pre-trained CLIP models for image-level classification and
manipulation. In this paper, we further explore the potentials of CLIP for
pixel-level dense prediction, specifically in semantic segmentation. Our
method, DenseCLIP, in the absence of annotations and fine-tuning, yields
reasonable segmentation results on open concepts across various datasets. By
adding pseudo labeling and self-training, DenseCLIP+ surpasses SOTA
transductive zero-shot semantic segmentation methods by large margins, e.g.,
mIoUs of unseen classes on PASCAL VOC/PASCAL Context/COCO Stuff are improved
from 35.6/20.7/30.3 to 86.1/66.7/54.7. We also test the robustness of DenseCLIP
under input corruption and evaluate its capability in discriminating
fine-grained objects and novel concepts. Our finding suggests that DenseCLIP
can serve as a new reliable source of supervision for dense prediction tasks to
achieve annotation-free segmentation.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) はオープン語彙ゼロショット画像認識において画期的な進歩を遂げた。
最近の多くの研究は、画像レベルの分類と操作に事前訓練されたCLIPモデルを利用している。
本稿では,特にセマンティックセグメンテーションにおいて,ピクセルレベルの密度予測のためのCLIPの可能性について検討する。
アノテーションや微調整がないことで、さまざまなデータセットにまたがるオープンコンセプトに対して合理的なセグメンテーション結果が得られるのです。
例えば、パスカルvoc/パスカルコンテキスト/cocoの無意味クラスを35.6/20.7/30.3から86.1/66.7/54.7に改善する。
また,入力汚損下でのDenseCLIPのロバスト性を検証し,細粒度オブジェクトや新しい概念を識別する能力を評価する。
DenseCLIPは,アノテーションのないセグメンテーションを実現するために,高密度予測タスクの信頼性の高い新たな管理源として機能する可能性が示唆された。
関連論文リスト
- Spectral Prompt Tuning:Unveiling Unseen Classes for Zero-Shot Semantic
Segmentation [21.92803192833741]
画像からピクセルへのCLIPの適応性を改善する一段階アプローチであるSPT-SEGを提案する。
具体的には、スペクトルプロンプトチューニング(SPT)を導入し、CLIP視覚エンコーダの浅い層にスペクトルプロンプトを組み込む。
我々は、最先端のアプローチよりもメソッドが優れていることを実証し、すべてのクラスでうまく機能し、特に目に見えないクラスを扱うのに優れています。
論文 参考訳(メタデータ) (2023-12-20T04:27:13Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [12.872308743619403]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic
Segmentation For-Free [12.15899043709721]
CLIP-DIYと呼ばれるオープン語彙セマンティックセマンティックセマンティクス手法を提案する。
異なるサイズのパッチに対してCLIP分類機能を活用し、決定を単一のマップに集約する。
PASCAL VOCでは,最先端のゼロショットセマンティックセマンティックセマンティクスが得られ,COCOのベストメソッドと同等に動作する。
論文 参考訳(メタデータ) (2023-09-25T16:52:59Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic
Segmentation [55.575224613422726]
コントラスト言語-画像事前学習(CLIP)は,画素レベルのオープン語彙学習タスクにおいて大きな可能性を秘めている。
既存のモデルは、未知のクラスから入力ピクセルを容易に識別し、意味的に類似したクラスと混同する。
提案する最適化問題を,個別にセマンティックマッチングを行い,識別能力の向上のために信頼性を判断する2つの並列プロセスに分解する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive
Learning [82.70453633641466]
Patch Aligned Contrastive Learning (PACL)を導入する。
PACLは画像レベルの予測にも適用可能であることを示し、CLIPバックボーンで使用すると、ゼロショット分類精度が全般的に向上することを示した。
論文 参考訳(メタデータ) (2022-12-09T17:23:00Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。