論文の概要: Zoom-shot: Fast and Efficient Unsupervised Zero-Shot Transfer of CLIP to
Vision Encoders with Multimodal Loss
- arxiv url: http://arxiv.org/abs/2401.11633v1
- Date: Mon, 22 Jan 2024 00:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:33:54.422535
- Title: Zoom-shot: Fast and Efficient Unsupervised Zero-Shot Transfer of CLIP to
Vision Encoders with Multimodal Loss
- Title(参考訳): Zoom-shot: マルチモーダル損失を有するビジョンエンコーダへのCLIPの高速かつ効率的なゼロショット転送
- Authors: Jordan Shipard, Arnold Wiliem, Kien Nguyen Thanh, Wei Xiang, Clinton
Fookes
- Abstract要約: 本稿では,CLIPのゼロショット機能を事前学習した視覚エンコーダに転送するZoom-shotを提案する。
私たちは、CLIP潜伏空間に存在するマルチモーダル情報(テキストと画像)を利用する。
Zoom-shotは完全に教師なしで、$textbfunpaired$データを使ってトレーニングされている。
- 参考スコア(独自算出の注目度): 31.924829670341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fusion of vision and language has brought about a transformative shift in
computer vision through the emergence of Vision-Language Models (VLMs).
However, the resource-intensive nature of existing VLMs poses a significant
challenge. We need an accessible method for developing the next generation of
VLMs. To address this issue, we propose Zoom-shot, a novel method for
transferring the zero-shot capabilities of CLIP to any pre-trained vision
encoder. We do this by exploiting the multimodal information (i.e. text and
image) present in the CLIP latent space through the use of specifically
designed multimodal loss functions. These loss functions are (1)
cycle-consistency loss and (2) our novel prompt-guided knowledge distillation
loss (PG-KD). PG-KD combines the concept of knowledge distillation with CLIP's
zero-shot classification, to capture the interactions between text and image
features. With our multimodal losses, we train a $\textbf{linear mapping}$
between the CLIP latent space and the latent space of a pre-trained vision
encoder, for only a $\textbf{single epoch}$. Furthermore, Zoom-shot is entirely
unsupervised and is trained using $\textbf{unpaired}$ data. We test the
zero-shot capabilities of a range of vision encoders augmented as new VLMs, on
coarse and fine-grained classification datasets, outperforming the previous
state-of-the-art in this problem domain. In our ablations, we find Zoom-shot
allows for a trade-off between data and compute during training; and our
state-of-the-art results can be obtained by reducing training from 20% to 1% of
the ImageNet training data with 20 epochs. All code and models are available on
GitHub.
- Abstract(参考訳): ビジョンと言語の統合は、ビジョン言語モデル(vlms)の出現を通じて、コンピュータビジョンの変革をもたらした。
しかし、既存のVLMの資源集約性は大きな課題となっている。
我々は次世代のVLMを開発するためのアクセス可能な方法が必要である。
そこで本稿では,クリップのゼロショット機能を任意の事前学習された視覚エンコーダに転送する新しい手法であるzoom-shotを提案する。
私たちはCLIPラテント空間に存在するマルチモーダル情報(テキストと画像)を、特別に設計されたマルチモーダル損失関数を用いることで活用する。
これらの損失関数は,(1)サイクルコンシスタンス損失,(2)新規迅速誘導型知識蒸留損失(pg-kd)である。
PG-KDは知識蒸留の概念とCLIPのゼロショット分類を組み合わせて、テキストと画像の特徴間の相互作用を捉える。
マルチモーダルな損失があれば、$\textbf{single epoch}$で、CLIP潜在空間と事前訓練されたビジョンエンコーダの潜在空間の間に$\textbf{linear mapping}$をトレーニングします。
さらに、zoom-shotは完全に教師なしで、$\textbf{unpaired}$データを使ってトレーニングされる。
我々は,新しいVLMとして拡張された様々な視覚エンコーダのゼロショット能力を,粗い,きめ細かな分類データセットで検証し,この問題領域における従来の最先端技術よりも優れていた。
また,画像ネットトレーニングデータの20%から1%のトレーニングを20エポックで削減することで,最先端の成果を得ることができた。
すべてのコードとモデルはGitHubで入手できる。
関連論文リスト
- Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - Zero-Shot Distillation for Image Encoders: How to Make Effective Use of Synthetic Data [40.37396692278567]
我々は、効率的なゼロショット分類のための画像エンコーダの小さな変種を訓練することに重点を置いている。
合成データの使用は、より大きな教師の蒸留表現において有望であることが示され、強い数発のプローブ性能と線形プローブ性能が得られた。
対照的な損失を使用する場合、真のゼロショット設定では、このアプローチが驚くほど失敗することがわかった。
論文 参考訳(メタデータ) (2024-04-25T14:24:41Z) - Controlling Vision-Language Models for Multi-Task Image Restoration [6.239038964461397]
我々は、事前学習された視覚言語モデルを低レベル視覚タスクに転送するための劣化認識型視覚言語モデル(DA-CLIP)を提案する。
本手法は, 画像修復作業の高度化と高度化の両面において, 最先端の性能向上を図っている。
論文 参考訳(メタデータ) (2023-10-02T09:10:16Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting [111.49781716597984]
本稿では,教師付きおよびゼロショット性能のバランスをとるためのマルチモーダル・プロンプト学習手法を提案する。
Kinetics-600, HMDB51, UCF101では, 教師付き環境での競争力を維持しながら, 最先端のゼロショット性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-06T18:00:04Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - CoCa: Contrastive Captioners are Image-Text Foundation Models [41.759438751996505]
Contrastive Captioner (CoCa) は、画像テキストエンコーダ/デコーダの基礎モデルを事前訓練するための最小限の設計である。
同じ計算グラフを共有することで、2つのトレーニング目標を最小限のオーバーヘッドで効率的に計算する。
CoCaは、幅広い下流タスクに対するゼロショット転送または最小限のタスク特化で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-04T07:01:14Z) - Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T12:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。