論文の概要: CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense
Prediction
- arxiv url: http://arxiv.org/abs/2310.01403v2
- Date: Wed, 24 Jan 2024 18:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 17:17:49.824746
- Title: CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense
Prediction
- Title(参考訳): CLIPSelf:視覚変換器はオープンボキャブラリディエンス予測のために自分自身を希釈する
- Authors: Size Wu and Wenwei Zhang and Lumin Xu and Sheng Jin and Xiangtai Li
and Wentao Liu and Chen Change Loy
- Abstract要約: そこで我々は,CLIPSelfというアプローチを提案し,CLIP ViTの画像レベルの認識能力を局所画像領域に適用する。
オープンボキャブラリオブジェクト検出,セマンティックセグメンテーション,パン光学セグメンテーションを,様々なベンチマークで実現した。
- 参考スコア(独自算出の注目度): 67.43527289422978
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-vocabulary dense prediction tasks including object detection and image
segmentation have been advanced by the success of Contrastive Language-Image
Pre-training (CLIP). CLIP models, particularly those incorporating vision
transformers (ViTs), have exhibited remarkable generalization ability in
zero-shot image classification. However, when transferring the vision-language
alignment of CLIP from global image representation to local region
representation for the open-vocabulary dense prediction tasks, CLIP ViTs suffer
from the domain shift from full images to local image regions. In this paper,
we embark on an in-depth analysis of the region-language alignment in CLIP
models, which is essential for downstream open-vocabulary dense prediction
tasks. Subsequently, we propose an approach named CLIPSelf, which adapts the
image-level recognition ability of CLIP ViT to local image regions without
needing any region-text pairs. CLIPSelf empowers ViTs to distill itself by
aligning a region representation extracted from its dense feature map with the
image-level representation of the corresponding image crop. With the enhanced
CLIP ViTs, we achieve new state-of-the-art performance on open-vocabulary
object detection, semantic segmentation, and panoptic segmentation across
various benchmarks. Models and code are released at
https://github.com/wusize/CLIPSelf.
- Abstract(参考訳): Contrastive Language- Image Pre-training (CLIP) の成功により、オブジェクト検出や画像セグメント化などのオープン語彙密集予測タスクが進んでいる。
CLIPモデル、特に視覚変換器(ViT)を組み込んだモデルは、ゼロショット画像分類において顕著な一般化能力を示した。
しかし,大域画像表現から局所画像表現へクリップの視覚言語アライメントを移行する際,クリップvitsは全画像から局所画像領域への領域シフトに苦しむ。
本稿では,クリップモデルにおける地域言語アライメントの詳細な解析を行い,下流のボキャブラリー密集予測タスクに不可欠である。
次に,クリップvitの画像レベルの認識能力を,領域テキストペアを必要とせずに局所画像領域に適用する,クリップ自己という手法を提案する。
CLIPSelfは、その高密度特徴写像から抽出された領域表現と対応する画像作物の画像レベル表現とを合わせることで、ViTを蒸留する権限を与える。
拡張されたCLIP ViTにより、オープン語彙オブジェクトの検出、セマンティックセグメンテーション、および様々なベンチマークにおけるパノプティクスセグメンテーションにおいて、最先端のパフォーマンスを実現する。
モデルとコードはhttps://github.com/wusize/clipselfでリリースされている。
関連論文リスト
- Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Interpreting CLIP's Image Representation via Text-Based Decomposition [80.34129476152519]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。
VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。
少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文 参考訳(メタデータ) (2021-12-04T18:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。