論文の概要: SILC: Improving Vision Language Pretraining with Self-Distillation
- arxiv url: http://arxiv.org/abs/2310.13355v1
- Date: Fri, 20 Oct 2023 08:44:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 23:44:21.724185
- Title: SILC: Improving Vision Language Pretraining with Self-Distillation
- Title(参考訳): SILC:自己蒸留による視覚言語訓練の改善
- Authors: Muhammad Ferjad Naeem, Yongqin Xian, Xiaohua Zhai, Lukas Hoyer, Luc
Van Gool, Federico Tombari
- Abstract要約: 指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,コンピュータビジョンタスクにおけるモデル性能が大幅に向上することを示す。
我々のモデルSILCは、ゼロショット分類、少ないショット分類、画像とテキストの検索、ゼロショットセグメンテーション、オープンボキャブラリセグメンテーションのための新しい技術状態を設定する。
- 参考スコア(独自算出の注目度): 113.50400246862056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-Text pretraining on web-scale image caption dataset has become the
default recipe for open vocabulary classification and retrieval models thanks
to the success of CLIP and its variants. Several works have also used CLIP
features for dense prediction tasks and have shown the emergence of open-set
abilities. However, the contrastive objective only focuses on image-text
alignment and does not incentivise image feature learning for dense prediction
tasks. In this work, we propose the simple addition of local-to-global
correspondence learning by self-distillation as an additional objective for
contrastive pre-training to propose SILC. We show that distilling local image
features from an exponential moving average (EMA) teacher model significantly
improves model performance on several computer vision tasks including
classification, retrieval, and especially segmentation. We further show that
SILC scales better with the same training duration compared to the baselines.
Our model SILC sets a new state of the art for zero-shot classification, few
shot classification, image and text retrieval, zero-shot segmentation, and open
vocabulary segmentation.
- Abstract(参考訳): Webスケールの画像キャプションデータセットによる画像テキスト事前トレーニングは、CLIPとその変種の成功により、オープン語彙分類と検索モデルのデフォルトレシピとなった。
いくつかの研究では、複雑な予測タスクにCLIP機能を使用し、オープンセット能力の出現を示している。
しかし、対照的な目的は、画像テキストアライメントのみに焦点を合わせ、密集した予測タスクに対して画像特徴学習を動機付けない。
本研究では, 自己蒸留による局所-グローバル対応学習の簡易付加を, コントラスト事前学習のための追加目的として提案する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,分類,検索,特にセグメンテーションなどのコンピュータビジョンタスクにおけるモデル性能が著しく向上することを示す。
さらに,silcはベースラインと同等のトレーニング期間でスケール性が向上することを示した。
我々のモデルsilcは,ゼロショット分類,ショット分類,画像とテキスト検索,ゼロショットセグメンテーション,オープン語彙セグメンテーションのための新しい状態を設定する。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。