Fugu-MT 論文翻訳(概要): DenseCLIP: Extract Free Dense Labels from CLIP

論文の概要: DenseCLIP: Extract Free Dense Labels from CLIP

arxiv url: http://arxiv.org/abs/2112.01071v1
Date: Thu, 2 Dec 2021 09:23:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-03 14:05:42.581589
Title: DenseCLIP: Extract Free Dense Labels from CLIP
Title（参考訳）: DenseCLIP: CLIPから無料のDense Labelsを抽出する
Authors: Chong Zhou, Chen Change Loy, Bo Dai
Abstract要約: 対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。 DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
参考スコア（独自算出の注目度）: 130.3830819077699
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastive Language-Image Pre-training (CLIP) has made a remarkable breakthrough in open-vocabulary zero-shot image recognition. Many recent studies leverage the pre-trained CLIP models for image-level classification and manipulation. In this paper, we further explore the potentials of CLIP for pixel-level dense prediction, specifically in semantic segmentation. Our method, DenseCLIP, in the absence of annotations and fine-tuning, yields reasonable segmentation results on open concepts across various datasets. By adding pseudo labeling and self-training, DenseCLIP+ surpasses SOTA transductive zero-shot semantic segmentation methods by large margins, e.g., mIoUs of unseen classes on PASCAL VOC/PASCAL Context/COCO Stuff are improved from 35.6/20.7/30.3 to 86.1/66.7/54.7. We also test the robustness of DenseCLIP under input corruption and evaluate its capability in discriminating fine-grained objects and novel concepts. Our finding suggests that DenseCLIP can serve as a new reliable source of supervision for dense prediction tasks to achieve annotation-free segmentation.
Abstract（参考訳）: Contrastive Language-Image Pre-Training (CLIP) はオープン語彙ゼロショット画像認識において画期的な進歩を遂げた。最近の多くの研究は、画像レベルの分類と操作に事前訓練されたCLIPモデルを利用している。本稿では,特にセマンティックセグメンテーションにおいて,ピクセルレベルの密度予測のためのCLIPの可能性について検討する。アノテーションや微調整がないことで、さまざまなデータセットにまたがるオープンコンセプトに対して合理的なセグメンテーション結果が得られるのです。例えば、パスカルvoc/パスカルコンテキスト/cocoの無意味クラスを35.6/20.7/30.3から86.1/66.7/54.7に改善する。また,入力汚損下でのDenseCLIPのロバスト性を検証し,細粒度オブジェクトや新しい概念を識別する能力を評価する。 DenseCLIPは,アノテーションのないセグメンテーションを実現するために,高密度予測タスクの信頼性の高い新たな管理源として機能する可能性が示唆された。

関連論文リスト

Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。 SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文参考訳（メタデータ） (2024-11-24T15:14:05Z)
ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [32.852004564832455]
我々はCLIPのアーキテクチャを再検討し、残余接続をセグメンテーション品質を劣化させるノイズの主源として同定する。オープン語彙セマンティックセグメンテーションを強化するためにCLIPの表現を分解する新しいアプローチであるClearCLIPを提案する。
論文参考訳（メタデータ） (2024-07-17T09:52:20Z)
Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文参考訳（メタデータ） (2024-06-17T03:49:47Z)
SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文参考訳（メタデータ） (2023-12-04T03:18:46Z)
TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。 CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文参考訳（メタデータ） (2023-04-15T12:52:23Z)
Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive Learning [82.70453633641466]
Patch Aligned Contrastive Learning (PACL)を導入する。 PACLは画像レベルの予測にも適用可能であることを示し、CLIPバックボーンで使用すると、ゼロショット分類精度が全般的に向上することを示した。
論文参考訳（メタデータ） (2022-12-09T17:23:00Z)
SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文参考訳（メタデータ） (2022-11-27T12:38:52Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文参考訳（メタデータ） (2021-12-29T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。