論文の概要: Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2411.15869v1
- Date: Sun, 24 Nov 2024 15:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:45.593435
- Title: Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation
- Title(参考訳): 学習自由なオープン語彙セグメンテーションのための自己校正型CLIP
- Authors: Sule Bai, Yong Liu, Yifei Han, Haoji Zhang, Yansong Tang,
- Abstract要約: Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
- 参考スコア(独自算出の注目度): 19.749490092520006
- License:
- Abstract: Recent advancements in pre-trained vision-language models like CLIP, have enabled the task of open-vocabulary segmentation. CLIP demonstrates impressive zero-shot capabilities in various downstream tasks that require holistic image understanding. However, due to its image-level pre-training, CLIP struggles to capture local details, resulting in poor performance in segmentation tasks. Our analysis reveals that anomaly tokens emerge during the forward pass, drawing excessive attention from normal patch tokens, thereby diminishing spatial awareness. To address this issue, we propose Self-Calibrated CLIP (SC-CLIP), a training-free method that calibrates CLIP to produce finer-grained representations while preserving its original generalization ability, without introducing new parameters or relying on additional backbones. Specifically, we first identify and resolve the anomaly tokens to mitigate their negative impact. Next, we enhance feature discriminability and attention correlation by leveraging the semantic consistency found in CLIP's intermediate features. Furthermore, we employ multi-level feature fusion to enrich details. Collectively, these strategies enhance CLIP's feature representation with greater granularity and coherence. Experimental results demonstrate the effectiveness of SC-CLIP, achieving state-of-the-art results across eight semantic segmentation datasets and surpassing previous methods by 9.5%. Notably, SC-CLIP boosts the performance of vanilla CLIP ViT-L/14 by 6.8 times. Our source code is available at https://github.com/SuleBai/SC-CLIP.
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデルの最近の進歩は、オープン語彙セグメンテーションのタスクを可能にした。
CLIPは、全体的なイメージ理解を必要とするさまざまな下流タスクにおいて、印象的なゼロショット機能を示している。
しかし、イメージレベルの事前トレーニングのため、CLIPはローカルの詳細をキャプチャするのに苦労し、セグメンテーションタスクのパフォーマンスが低下した。
解析の結果,前方通過中に異常トークンが出現し,通常のパッチトークンから過度な注意を惹き、空間的意識を低下させることが明らかとなった。
この問題に対処するため,新たなパラメータを導入したり,バックボーンの追加に頼ることなく,CLIPを微粒化表現を調整し,元の一般化能力を保ちながら,CLIPを微粒化させる,自己校正型CLIP (SC-CLIP) を提案する。
具体的には,まず異常トークンを特定し,その負の影響を緩和する。
次に、CLIPの中間機能に見られる意味的一貫性を活用することにより、特徴識別性と注意相関性を高める。
さらに、細部を豊かにするために多層機能融合を用いる。
まとめると、これらの戦略はCLIPの機能表現をより粒度とコヒーレンスで強化する。
実験結果は、SC-CLIPの有効性を示し、8つのセマンティックセグメンテーションデータセットにまたがって最先端の結果を達成し、以前の手法を9.5%上回った。
特に、SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍に向上させる。
ソースコードはhttps://github.com/SuleBai/SC-CLIPで公開されています。
関連論文リスト
- CLIPer: Hierarchically Improving Spatial Representation of CLIP for Open-Vocabulary Semantic Segmentation [45.036137066263386]
Contrastive Language-Image Pre-Training (CLIP) は、様々な画像レベルのタスクに対して強力なゼロショット分類能力を示す。
CLIPの空間表現を階層的に改善する新しい階層型フレームワークCLIPerを提案する。
提案するCLIPerは、7つのセグメンテーションデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-21T04:54:30Z) - ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [32.852004564832455]
我々はCLIPのアーキテクチャを再検討し、残余接続をセグメンテーション品質を劣化させるノイズの主源として同定する。
オープン語彙セマンティックセグメンテーションを強化するためにCLIPの表現を分解する新しいアプローチであるClearCLIPを提案する。
論文 参考訳(メタデータ) (2024-07-17T09:52:20Z) - Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation [38.16802763051431]
トレーニング不要なセマンティックセグメンテーション戦略であるCLIPtraseを提案する。
パッチ間の自己相関を補正することで、局所的な特徴認識を高める。
実験の結果、CLIPよりも平均して9つのセグメンテーションベンチマークで22.3%先行していることがわかった。
論文 参考訳(メタデータ) (2024-07-11T08:12:16Z) - Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation [72.47110803885235]
ゼロショットセマンティックセグメンテーションのための新しいフレームワークCascade-CLIPを提案する。
このフレームワークはCOCO-Stuff, Pascal-VOC, Pascal-Contextといったセグメンテーションベンチマークにおいて優れたゼロショット性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T08:32:51Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks [85.37552507367175]
対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。
本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:01Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。