Fugu-MT 論文翻訳(概要): CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction

論文の概要: CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction

arxiv url: http://arxiv.org/abs/2310.01403v2
Date: Wed, 24 Jan 2024 18:11:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 17:17:49.824746
Title: CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction
Title（参考訳）: CLIPSelf:視覚変換器はオープンボキャブラリディエンス予測のために自分自身を希釈する
Authors: Size Wu and Wenwei Zhang and Lumin Xu and Sheng Jin and Xiangtai Li and Wentao Liu and Chen Change Loy
Abstract要約: そこで我々は,CLIPSelfというアプローチを提案し,CLIP ViTの画像レベルの認識能力を局所画像領域に適用する。オープンボキャブラリオブジェクト検出,セマンティックセグメンテーション,パン光学セグメンテーションを,様々なベンチマークで実現した。
参考スコア（独自算出の注目度）: 67.43527289422978
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Open-vocabulary dense prediction tasks including object detection and image segmentation have been advanced by the success of Contrastive Language-Image Pre-training (CLIP). CLIP models, particularly those incorporating vision transformers (ViTs), have exhibited remarkable generalization ability in zero-shot image classification. However, when transferring the vision-language alignment of CLIP from global image representation to local region representation for the open-vocabulary dense prediction tasks, CLIP ViTs suffer from the domain shift from full images to local image regions. In this paper, we embark on an in-depth analysis of the region-language alignment in CLIP models, which is essential for downstream open-vocabulary dense prediction tasks. Subsequently, we propose an approach named CLIPSelf, which adapts the image-level recognition ability of CLIP ViT to local image regions without needing any region-text pairs. CLIPSelf empowers ViTs to distill itself by aligning a region representation extracted from its dense feature map with the image-level representation of the corresponding image crop. With the enhanced CLIP ViTs, we achieve new state-of-the-art performance on open-vocabulary object detection, semantic segmentation, and panoptic segmentation across various benchmarks. Models and code are released at https://github.com/wusize/CLIPSelf.
Abstract（参考訳）: Contrastive Language- Image Pre-training (CLIP) の成功により、オブジェクト検出や画像セグメント化などのオープン語彙密集予測タスクが進んでいる。 CLIPモデル、特に視覚変換器(ViT)を組み込んだモデルは、ゼロショット画像分類において顕著な一般化能力を示した。しかし,大域画像表現から局所画像表現へクリップの視覚言語アライメントを移行する際,クリップvitsは全画像から局所画像領域への領域シフトに苦しむ。本稿では,クリップモデルにおける地域言語アライメントの詳細な解析を行い,下流のボキャブラリー密集予測タスクに不可欠である。次に,クリップvitの画像レベルの認識能力を,領域テキストペアを必要とせずに局所画像領域に適用する,クリップ自己という手法を提案する。 CLIPSelfは、その高密度特徴写像から抽出された領域表現と対応する画像作物の画像レベル表現とを合わせることで、ViTを蒸留する権限を与える。拡張されたCLIP ViTにより、オープン語彙オブジェクトの検出、セマンティックセグメンテーション、および様々なベンチマークにおけるパノプティクスセグメンテーションにおいて、最先端のパフォーマンスを実現する。モデルとコードはhttps://github.com/wusize/clipselfでリリースされている。

関連論文リスト

A Training-Free Framework for Open-Vocabulary Image Segmentation and Recognition with EfficientNet and CLIP [12.96248884328754]
本稿では,オープンボキャブラリ画像セグメンテーションとオブジェクト認識のための新しい学習自由フレームワークを提案する。教師なしセグメンテーションには畳み込みニューラルネットワークであるEfficientNetB0を使用し、オープン語彙オブジェクト認識には視覚言語モデルであるCLIPを使用している。ハンガリーのmIoU、精度、リコール、F1スコアで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-10-22T07:54:18Z)
Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。 2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2025-08-15T06:43:51Z)
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception [21.87721909270275]
DeCLIPはCLIPをコンテンツとコンテキストの機能で強化する新しいフレームワークである。複数の開語彙密接な予測タスクで既存の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-05-07T13:46:34Z)
Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。 CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文参考訳（メタデータ） (2024-10-03T17:56:09Z)
SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。 SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2023-10-20T08:44:47Z)
Interpreting CLIP's Image Representation via Text-Based Decomposition [73.54377859089801]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文参考訳（メタデータ） (2023-10-09T17:59:04Z)
Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文参考訳（メタデータ） (2022-07-19T15:49:35Z)
RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文参考訳（メタデータ） (2021-12-16T18:39:36Z)
VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。 VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文参考訳（メタデータ） (2021-12-04T18:34:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。