論文の概要: CLIPer: Hierarchically Improving Spatial Representation of CLIP for Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2411.13836v1
- Date: Thu, 21 Nov 2024 04:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:14.509550
- Title: CLIPer: Hierarchically Improving Spatial Representation of CLIP for Open-Vocabulary Semantic Segmentation
- Title(参考訳): CLIPer: オープンボキャブラリセマンティックセマンティックセグメンテーションのためのCLIPの空間表現の階層的改善
- Authors: Lin Sun, Jiale Cao, Jin Xie, Xiaoheng Jiang, Yanwei Pang,
- Abstract要約: Contrastive Language-Image Pre-Training (CLIP) は、様々な画像レベルのタスクに対して強力なゼロショット分類能力を示す。
CLIPの空間表現を階層的に改善する新しい階層型フレームワークCLIPerを提案する。
提案するCLIPerは、7つのセグメンテーションデータセット上で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 45.036137066263386
- License:
- Abstract: Contrastive Language-Image Pre-training (CLIP) exhibits strong zero-shot classification ability on various image-level tasks, leading to the research to adapt CLIP for pixel-level open-vocabulary semantic segmentation without additional training. The key is to improve spatial representation of image-level CLIP, such as replacing self-attention map at last layer with self-self attention map or vision foundation model based attention map. In this paper, we present a novel hierarchical framework, named CLIPer, that hierarchically improves spatial representation of CLIP. The proposed CLIPer includes an early-layer fusion module and a fine-grained compensation module. We observe that, the embeddings and attention maps at early layers can preserve spatial structural information. Inspired by this, we design the early-layer fusion module to generate segmentation map with better spatial coherence. Afterwards, we employ a fine-grained compensation module to compensate the local details using the self-attention maps of diffusion model. We conduct the experiments on seven segmentation datasets. Our proposed CLIPer achieves the state-of-the-art performance on these datasets. For instance, using ViT-L, CLIPer has the mIoU of 69.8% and 43.3% on VOC and COCO Object, outperforming ProxyCLIP by 9.2% and 4.1% respectively.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) は、様々な画像レベルのタスクに対して強力なゼロショット分類能力を示し、追加のトレーニングなしでピクセルレベルのオープン語彙セマンティックセマンティックセマンティックセマンティクスにCLIPを適用する研究へと繋がる。
鍵となるのは、最終層における自己注意マップを自己注意マップや視覚基盤モデルに基づく注意マップに置き換えるなど、画像レベルのCLIPの空間表現を改善することである。
本稿では,CLIPの空間表現を階層的に改善するCLIPerという新しい階層型フレームワークを提案する。
提案されているCLIPerには、アーリー層融合モジュールときめ細かい補償モジュールが含まれている。
初期層における埋め込みと注意マップは空間構造情報を保存できる。
そこで我々は,空間コヒーレンスの良いセグメンテーションマップを生成するために,初期層融合モジュールを設計した。
その後、拡散モデルの自己アテンションマップを用いて局所的な詳細を補償するために、きめ細かい補償モジュールを用いる。
7つのセグメンテーションデータセットで実験を行う。
提案するCLIPerは,これらのデータセット上での最先端のパフォーマンスを実現する。
例えば、VT-Lを使用する場合、CLIPerのmIoUは69.8%、VOCおよびCOCOオブジェクトでは43.3%であり、それぞれ9.2%、CLIPerは4.1%である。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements [0.6990493129893112]
ビジョン言語モデルの最近の進歩は、コンピュータビジョンタスクにおける評価パラダイムを再形成している。
これらの基礎モデル、特にCLIPは、オープン語彙コンピュータビジョンタスクの研究を加速してきた。
本研究では,CLIPのセマンティックセグメンテーション性能を,新しいモジュールの導入と修正によって向上させる。
ITACLIPはセグメンテーションベンチマークの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-18T20:31:38Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense
Prediction [67.43527289422978]
そこで我々は,CLIPSelfというアプローチを提案し,CLIP ViTの画像レベルの認識能力を局所画像領域に適用する。
オープンボキャブラリオブジェクト検出,セマンティックセグメンテーション,パン光学セグメンテーションを,様々なベンチマークで実現した。
論文 参考訳(メタデータ) (2023-10-02T17:58:52Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - Learning Where to Learn in Cross-View Self-Supervised Learning [54.14989750044489]
自己教師付き学習(SSL)は大きな進歩を遂げ、教師付き学習との大きなギャップを狭めた。
現在の方法では、埋め込みにピクセルの統一的なアグリゲーションを採用する。
本稿では,特徴の空間情報を適応的に集約する学習方法であるLearning Where to Learn(LEWEL)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:02:42Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。