論文の概要: SILC: Improving Vision Language Pretraining with Self-Distillation
- arxiv url: http://arxiv.org/abs/2310.13355v2
- Date: Thu, 7 Dec 2023 10:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 18:11:44.595853
- Title: SILC: Improving Vision Language Pretraining with Self-Distillation
- Title(参考訳): SILC:自己蒸留による視覚言語訓練の改善
- Authors: Muhammad Ferjad Naeem, Yongqin Xian, Xiaohua Zhai, Lukas Hoyer, Luc
Van Gool, Federico Tombari
- Abstract要約: 本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 113.50400246862056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-Text pretraining on web-scale image caption datasets has become the
default recipe for open vocabulary classification and retrieval models thanks
to the success of CLIP and its variants. Several works have also used CLIP
features for dense prediction tasks and have shown the emergence of open-set
abilities. However, the contrastive objective used by these models only focuses
on image-text alignment and does not incentivise image feature learning for
dense prediction tasks. In this work, we introduce SILC, a novel framework for
vision language pretraining. SILC improves image-text contrastive learning with
the simple addition of local-to-global correspondence learning by
self-distillation. We show that distilling local image features from an
exponential moving average (EMA) teacher model significantly improves model
performance on dense predictions tasks like detection and segmentation, while
also providing improvements on image-level tasks such as classification and
retrieval. SILC models sets a new state of the art for zero-shot
classification, few shot classification, image and text retrieval, zero-shot
segmentation, and open vocabulary segmentation. We further show that SILC
features greatly benefit open vocabulary detection, captioning and visual
question answering.
- Abstract(参考訳): Webスケールの画像キャプションデータセットによる画像テキスト事前トレーニングは、CLIPとその変種の成功により、オープン語彙分類と検索モデルのデフォルトレシピとなっている。
いくつかの研究では、複雑な予測タスクにCLIP機能を使用し、オープンセット能力の出現を示している。
しかし、これらのモデルで使われる対比的目的は、画像とテキストのアライメントのみに焦点を当て、密集した予測タスクに対して画像特徴学習をインセンティブとしない。
本稿では,視覚言語事前学習のための新しいフレームワークであるsilcを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションなどの密集予測タスクにおけるモデル性能が向上し,分類や検索などの画像レベルのタスクも改善された。
SILCモデルは、ゼロショット分類、ほとんどショット分類、画像とテキストの検索、ゼロショットセグメンテーション、オープン語彙セグメンテーションのための新しい技術状態を設定する。
さらに,オープン語彙検出,キャプション,視覚的質問応答にsilc機能が大いに有用であることを示す。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。