論文の概要: CLIP with Quality Captions: A Strong Pretraining for Vision Tasks
- arxiv url: http://arxiv.org/abs/2405.08911v1
- Date: Tue, 14 May 2024 19:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 15:05:10.380459
- Title: CLIP with Quality Captions: A Strong Pretraining for Vision Tasks
- Title(参考訳): 品質制限を備えたCLIP: ビジョンタスクのための強力な事前トレーニング
- Authors: Pavan Kumar Anasosalu Vasu, Hadi Pouransari, Fartash Faghri, Oncel Tuzel,
- Abstract要約: 良質なキャプションを用いたCLIPプレトレーニングは,近年の教師付き・自己監督型・弱教師付きプレトレーニング方法を上回る可能性がある。
モバイルアーキテクチャはCLIP事前トレーニングのメリットも大きいことが分かっています。
- 参考スコア(独自算出の注目度): 16.208506912410147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP models perform remarkably well on zero-shot classification and retrieval tasks. But recent studies have shown that learnt representations in CLIP are not well suited for dense prediction tasks like object detection, semantic segmentation or depth estimation. More recently, multi-stage training methods for CLIP models was introduced to mitigate the weak performance of CLIP on downstream tasks. In this work, we find that simply improving the quality of captions in image-text datasets improves the quality of CLIP's visual representations, resulting in significant improvement on downstream dense prediction vision tasks. In fact, we find that CLIP pretraining with good quality captions can surpass recent supervised, self-supervised and weakly supervised pretraining methods. We show that when CLIP model with ViT-B/16 as image encoder is trained on well aligned image-text pairs it obtains 12.1% higher mIoU and 11.5% lower RMSE on semantic segmentation and depth estimation tasks over recent state-of-the-art Masked Image Modeling (MIM) pretraining methods like Masked Autoencoder (MAE). We find that mobile architectures also benefit significantly from CLIP pretraining. A recent mobile vision architecture, MCi2, with CLIP pretraining obtains similar performance as Swin-L, pretrained on ImageNet-22k for semantic segmentation task while being 6.1$\times$ smaller. Moreover, we show that improving caption quality results in $10\times$ data efficiency when finetuning for dense prediction tasks.
- Abstract(参考訳): CLIPモデルは、ゼロショット分類と検索タスクにおいて極めてよく機能する。
しかし、最近の研究では、CLIPの学習表現は、オブジェクト検出、セマンティックセグメンテーション、深さ推定といった密集した予測タスクには適していないことが示されている。
最近では、下流タスクにおけるCLIPの弱いパフォーマンスを軽減するために、CLIPモデルのマルチステージトレーニング手法が導入されている。
本研究では,画像テキストデータセットのキャプションの品質向上がCLIPの視覚的表現の質の向上に寄与し,下流の高密度な予測視覚タスクに顕著な改善をもたらすことを明らかにする。
事実,CLIPプレトレーニングは,近年の教師付き,自己監督型,弱監督型プレトレーニング法を超越していることがわかった。
画像エンコーダとしての ViT-B/16 を用いた CLIP モデルでは,Masked Autoencoder (MAE) のような最近の最先端の Masked Image Modeling (MIM) による意味的セグメンテーションおよび深度推定タスクにおいて,12.1% の mIoU と 11.5% の RMSE が得られた。
モバイルアーキテクチャはCLIP事前トレーニングのメリットも大きいことが分かっています。
CLIPプリトレーニングを備えた最近のモバイルビジョンアーキテクチャであるMCi2は、セマンティックセグメンテーションタスクのためにImageNet-22kで事前トレーニングされたSwin-Lと同じようなパフォーマンスを取得し、より小さい6.1$\times$である。
さらに, 高密度予測タスクの微調整では, キャプション品質の改善が10\times$データ効率をもたらすことを示す。
関連論文リスト
- CLIP Can Understand Depth [5.6138460823631835]
我々はCLIPを高密度予測による単眼深度推定の有意な品質に適応させる。
我々のモデルは、これまでの最先端のビジョンのみのモデルに匹敵する印象的な性能を示す。
論文 参考訳(メタデータ) (2024-02-05T18:09:33Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [12.872308743619403]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。