論文の概要: DenseCLIP: Extract Free Dense Labels from CLIP
- arxiv url: http://arxiv.org/abs/2112.01071v1
- Date: Thu, 2 Dec 2021 09:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 14:05:42.581589
- Title: DenseCLIP: Extract Free Dense Labels from CLIP
- Title(参考訳): DenseCLIP: CLIPから無料のDense Labelsを抽出する
- Authors: Chong Zhou, Chen Change Loy, Bo Dai
- Abstract要約: 対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
- 参考スコア(独自算出の注目度): 130.3830819077699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has made a remarkable
breakthrough in open-vocabulary zero-shot image recognition. Many recent
studies leverage the pre-trained CLIP models for image-level classification and
manipulation. In this paper, we further explore the potentials of CLIP for
pixel-level dense prediction, specifically in semantic segmentation. Our
method, DenseCLIP, in the absence of annotations and fine-tuning, yields
reasonable segmentation results on open concepts across various datasets. By
adding pseudo labeling and self-training, DenseCLIP+ surpasses SOTA
transductive zero-shot semantic segmentation methods by large margins, e.g.,
mIoUs of unseen classes on PASCAL VOC/PASCAL Context/COCO Stuff are improved
from 35.6/20.7/30.3 to 86.1/66.7/54.7. We also test the robustness of DenseCLIP
under input corruption and evaluate its capability in discriminating
fine-grained objects and novel concepts. Our finding suggests that DenseCLIP
can serve as a new reliable source of supervision for dense prediction tasks to
achieve annotation-free segmentation.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) はオープン語彙ゼロショット画像認識において画期的な進歩を遂げた。
最近の多くの研究は、画像レベルの分類と操作に事前訓練されたCLIPモデルを利用している。
本稿では,特にセマンティックセグメンテーションにおいて,ピクセルレベルの密度予測のためのCLIPの可能性について検討する。
アノテーションや微調整がないことで、さまざまなデータセットにまたがるオープンコンセプトに対して合理的なセグメンテーション結果が得られるのです。
例えば、パスカルvoc/パスカルコンテキスト/cocoの無意味クラスを35.6/20.7/30.3から86.1/66.7/54.7に改善する。
また,入力汚損下でのDenseCLIPのロバスト性を検証し,細粒度オブジェクトや新しい概念を識別する能力を評価する。
DenseCLIPは,アノテーションのないセグメンテーションを実現するために,高密度予測タスクの信頼性の高い新たな管理源として機能する可能性が示唆された。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [32.852004564832455]
我々はCLIPのアーキテクチャを再検討し、残余接続をセグメンテーション品質を劣化させるノイズの主源として同定する。
オープン語彙セマンティックセグメンテーションを強化するためにCLIPの表現を分解する新しいアプローチであるClearCLIPを提案する。
論文 参考訳(メタデータ) (2024-07-17T09:52:20Z) - Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。
具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。
新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文 参考訳(メタデータ) (2024-06-17T03:49:47Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive
Learning [82.70453633641466]
Patch Aligned Contrastive Learning (PACL)を導入する。
PACLは画像レベルの予測にも適用可能であることを示し、CLIPバックボーンで使用すると、ゼロショット分類精度が全般的に向上することを示した。
論文 参考訳(メタデータ) (2022-12-09T17:23:00Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。