論文の概要: CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense
Prediction
- arxiv url: http://arxiv.org/abs/2310.01403v1
- Date: Mon, 2 Oct 2023 17:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:20:38.627833
- Title: CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense
Prediction
- Title(参考訳): CLIPSelf:視覚変換器はオープンボキャブラリディエンス予測のために自分自身を希釈する
- Authors: Size Wu and Wenwei Zhang and Lumin Xu and Sheng Jin and Xiangtai Li
and Wentao Liu and Chen Change Loy
- Abstract要約: そこで我々は,CLIPSelfというアプローチを提案し,CLIP ViTの画像レベルの認識能力を局所画像領域に適用する。
拡張されたCLIP ViTにより、オープン語彙オブジェクトの検出、セマンティックセグメンテーション、および様々なベンチマークにおけるパノプティクスセグメンテーションにおいて、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 67.43527289422978
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-vocabulary dense prediction tasks including object detection and image
segmentation have been advanced by the success of Contrastive Language-Image
Pre-training (CLIP). CLIP models, particularly those incorporating vision
transformers (ViTs), have exhibited remarkable generalization ability in
zero-shot image classification. However, when transferring the vision-language
alignment of CLIP from global image representation to local region
representation for the open-vocabulary dense prediction tasks, CLIP ViTs suffer
from the domain shift from full images to local image regions. In this paper,
we embark on an in-depth analysis of the region-language alignment in CLIP
models, which is essential for downstream open-vocabulary dense prediction
tasks. Subsequently, we propose an approach named CLIPSelf, which adapts the
image-level recognition ability of CLIP ViT to local image regions without
needing any region-text pairs. CLIPSelf empowers ViTs to distill itself by
aligning a region representation extracted from its dense feature map with the
image-level representation of the corresponding image crop. With the enhanced
CLIP ViTs, we achieve new state-of-the-art performance on open-vocabulary
object detection, semantic segmentation, and panoptic segmentation across
various benchmarks. Models and code will be available at
https://github.com/wusize/CLIPSelf.
- Abstract(参考訳): Contrastive Language- Image Pre-training (CLIP) の成功により、オブジェクト検出や画像セグメント化などのオープン語彙密集予測タスクが進んでいる。
CLIPモデル、特に視覚変換器(ViT)を組み込んだモデルは、ゼロショット画像分類において顕著な一般化能力を示した。
しかし,大域画像表現から局所画像表現へクリップの視覚言語アライメントを移行する際,クリップvitsは全画像から局所画像領域への領域シフトに苦しむ。
本稿では,クリップモデルにおける地域言語アライメントの詳細な解析を行い,下流のボキャブラリー密集予測タスクに不可欠である。
次に,クリップvitの画像レベルの認識能力を,領域テキストペアを必要とせずに局所画像領域に適用する,クリップ自己という手法を提案する。
CLIPSelfは、その高密度特徴写像から抽出された領域表現と対応する画像作物の画像レベル表現とを合わせることで、ViTを蒸留する権限を与える。
拡張されたCLIP ViTにより、オープン語彙オブジェクトの検出、セマンティックセグメンテーション、および様々なベンチマークにおけるパノプティクスセグメンテーションにおいて、最先端のパフォーマンスを実現する。
モデルとコードはhttps://github.com/wusize/clipselfで入手できる。
関連論文リスト
- Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Interpreting CLIP's Image Representation via Text-Based Decomposition [73.54377859089801]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。
VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。
少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文 参考訳(メタデータ) (2021-12-04T18:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。