論文の概要: SLIP: Self-supervision meets Language-Image Pre-training
- arxiv url: http://arxiv.org/abs/2112.12750v1
- Date: Thu, 23 Dec 2021 18:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 17:59:14.426529
- Title: SLIP: Self-supervision meets Language-Image Pre-training
- Title(参考訳): slip: 自己スーパービジョンによる言語イメージ事前トレーニング
- Authors: Norman Mu, Alexander Kirillov, David Wagner, Saining Xie
- Abstract要約: 自己指導型学習が視覚表現学習における言語指導の活用に役立つかどうかを考察する。
自己教師付き学習とCLIP事前学習を組み合わせたマルチタスク学習フレームワークSLIPを紹介する。
SLIPは、自己監督や言語監督よりも優れたパフォーマンスを享受しています。
- 参考スコア(独自算出の注目度): 79.53764315471543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that self-supervised pre-training leads to improvements
over supervised learning on challenging visual recognition tasks. CLIP, an
exciting new approach to learning with language supervision, demonstrates
promising performance on a wide variety of benchmarks. In this work, we explore
whether self-supervised learning can aid in the use of language supervision for
visual representation learning. We introduce SLIP, a multi-task learning
framework for combining self-supervised learning and CLIP pre-training. After
pre-training with Vision Transformers, we thoroughly evaluate representation
quality and compare performance to both CLIP and self-supervised learning under
three distinct settings: zero-shot transfer, linear classification, and
end-to-end finetuning. Across ImageNet and a battery of additional datasets, we
find that SLIP improves accuracy by a large margin. We validate our results
further with experiments on different model sizes, training schedules, and
pre-training datasets. Our findings show that SLIP enjoys the best of both
worlds: better performance than self-supervision (+8.1% linear accuracy) and
language supervision (+5.2% zero-shot accuracy).
- Abstract(参考訳): 近年の研究では、自己教師付き事前学習は、視覚認識課題に対する教師付き学習よりも改善されることが示された。
CLIPは、言語管理で学ぶためのエキサイティングな新しいアプローチで、さまざまなベンチマークで有望なパフォーマンスを示している。
本研究では,自己指導型学習が視覚表現学習における言語指導の活用に役立つかを検討する。
自己教師付き学習とCLIP事前学習を組み合わせたマルチタスク学習フレームワークSLIPを紹介する。
視覚変換器を用いた事前学習の後、表現品質を徹底的に評価し、ゼロショット転送、線形分類、エンドツーエンドファインタニングの3つの異なる設定下でCLIPと自己教師付き学習を比較した。
ImageNetと追加データセットのバッテリによって、SLIPは大きなマージンで精度を向上することがわかった。
さらに,モデルサイズ,トレーニングスケジュール,事前トレーニングデータセットについて実験を行い,結果の検証を行った。
以上の結果から,SLIPは自己超越(+8.1%の線形精度)や言語監督(+5.2%のゼロショット精度)よりも優れた性能を持つことがわかった。
関連論文リスト
- What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations [6.990891188823598]
本稿では,視覚的特徴を学習するために,視覚言語学習と識別的・生成的自己スーパービジョンを組み合わせたフレームワークであるHarmonyを紹介する。
当社のフレームワークは, ネガティブな例に頼らず, 1対1の対応問題に対処することで, ウェブスクラッドデータに特化して動作するように設計されている。
論文 参考訳(メタデータ) (2024-05-23T07:18:08Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - Self-Supervision Can Be a Good Few-Shot Learner [42.06243069679068]
本稿では,自己監督による学習表現を効果的に非教師なしの少数ショット学習法を提案する。
具体的には、低バイアスMI推定器を用いて、インスタンスとそれらの表現の相互情報(MI)を最大化する。
自己指導型事前訓練は,適切な条件下で指導型事前訓練より優れることを示す。
論文 参考訳(メタデータ) (2022-07-19T10:23:40Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - When Does Contrastive Visual Representation Learning Work? [13.247759411409936]
4つの大規模データセットの対比的自己監視学習について検討する。
i)500k画像を超える予備トレーニングデータの追加の利点は控えめであり、(ii)他のドメインからの予備トレーニング画像の追加は、より一般的な表現につながるものではなく、(iii)破損した予備トレーニング画像は、監督および自己監督の予備トレーニングに異なる影響を与えます。
論文 参考訳(メタデータ) (2021-05-12T17:52:42Z) - A Simple Framework for Contrastive Learning of Visual Representations [116.37752766922407]
本稿では,視覚表現のコントラスト学習のためのシンプルなフレームワークであるSimCLRについて述べる。
我々は,データ拡張の構成が効果的な予測タスクを定義する上で重要な役割を担っていることを示す。
我々は、ImageNet上での自己教師付き半教師付き学習において、従来の手法よりもかなり優れています。
論文 参考訳(メタデータ) (2020-02-13T18:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。