論文の概要: Democratizing Contrastive Language-Image Pre-training: A CLIP Benchmark
of Data, Model, and Supervision
- arxiv url: http://arxiv.org/abs/2203.05796v1
- Date: Fri, 11 Mar 2022 08:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:05:26.508694
- Title: Democratizing Contrastive Language-Image Pre-training: A CLIP Benchmark
of Data, Model, and Supervision
- Title(参考訳): コントラスト言語-画像事前学習の民主化: データ・モデル・スーパービジョンのCLIPベンチマーク
- Authors: Yufeng Cui, Lichen Zhao, Feng Liang, Yangguang Li, Jing Shao
- Abstract要約: Contrastive Language-Image Pretraining (CLIP) は、言語監督から視覚モデルを学ぶための新しいパラダイムとして登場した。
私たちはCLIPとその変異体を評価し、分析し、ベンチマークする最初の試みであるCLIP-benchmarkを提案する。
- 参考スコア(独自算出の注目度): 26.13829720290035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pretraining (CLIP) has emerged as a novel paradigm
to learn visual models from language supervision. While researchers continue to
push the frontier of CLIP, reproducing these works remains challenging. This is
because researchers do not choose consistent training recipes and even use
different data, hampering the fair comparison between different methods. In
this work, we propose CLIP-benchmark, a first attempt to evaluate, analyze, and
benchmark CLIP and its variants. We conduct a comprehensive analysis of three
key factors: data, supervision, and model architecture. We find considerable
intuitive or counter-intuitive insights: (1). Data quality has a significant
impact on performance. (2). Certain supervision has different effects for
Convolutional Networks (ConvNets) and Vision Transformers (ViT). Applying more
proper supervision can effectively improve the performance of CLIP. (3).
Curtailing the text encoder reduces the training cost but not much affect the
final performance. Moreover, we further combine DeCLIP with FILIP, bringing us
the strongest variant DeFILIP. The CLIP-benchmark would be released at:
https://github.com/Sense-GVT/DeCLIP for future CLIP research.
- Abstract(参考訳): Contrastive Language-Image Pretraining (CLIP) は、言語監督から視覚モデルを学ぶための新しいパラダイムとして登場した。
研究者は引き続きCLIPのフロンティアを推し進めているが、これらの作品の再現は依然として困難である。
これは、研究者が一貫したトレーニングレシピを選択したり、異なるデータを使ったりしないためです。
本稿では,CLIPとその変異体の評価,解析,ベンチマークを行う最初の試みであるCLIP-benchmarkを提案する。
データ、監視、モデルアーキテクチャの3つの重要な要素を包括的に分析します。
直感的あるいは反直感的な洞察は,(1)。
データ品質はパフォーマンスに大きな影響を与えます。
(2).
ある種の監視は、畳み込みネットワーク(ConvNets)とビジョントランスフォーマー(ViT)に異なる効果がある。
より適切な監視を適用することで、CLIPのパフォーマンスを効果的に向上させることができる。
(3).
テキストエンコーダの削減はトレーニングコストを削減するが、最終的なパフォーマンスにはあまり影響しない。
さらに、DeCLIPとFILIPを組み合わせることで、最強のDeFILIPを提供する。
CLIP-benchmarkは次の通りリリースされる。 https://github.com/Sense-GVT/DeCLIP for future CLIP research。
関連論文リスト
- Toward a Holistic Evaluation of Robustness in CLIP Models [11.148206692373144]
対照的な言語-画像事前学習(CLIP)モデルは、ゼロショット分類において有意な可能性を示している。
この作業は、いくつかの新しい視点を導入することで、より包括的なCLIPの評価を提供することを目的としている。
それぞれの側面において、モデルアーキテクチャ、トレーニング配布、トレーニングセットサイズ、微調整、コントラスト損失、テストタイムプロンプトの6つの要因がCLIPモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2024-10-02T13:26:17Z) - Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies [27.809995478990544]
本稿では,CLIP(Contrastive Language-Image Pre-Training)の性能を,限られた計算予算にスケールダウンする際の性能について検討する。
高品質なデータのより小さなデータセットは、より低い品質のデータセットよりも優れていることを示す。
SLIP、FLIP、CLIP、CLIP+Data Augmentationという4つのCLIPトレーニング戦略を比較し、トレーニング戦略の選択が利用可能な計算リソースに依存することを示す。
論文 参考訳(メタデータ) (2024-04-12T02:04:34Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - The CLEAR Benchmark: Continual LEArning on Real-World Imagery [77.98377088698984]
連続学習(CL)は、生涯AIにとって重要な課題であると考えられている。
本稿では,視覚概念の自然な時間進化を伴う最初の連続画像分類ベンチマークであるCLEARを紹介する。
単純な教師なし事前学習のステップで、最先端のCLアルゴリズムがすでに強化されていることが分かりました。
論文 参考訳(メタデータ) (2022-01-17T09:09:09Z) - CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks [85.37552507367175]
対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。
本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:01Z) - SLIP: Self-supervision meets Language-Image Pre-training [79.53764315471543]
自己指導型学習が視覚表現学習における言語指導の活用に役立つかどうかを考察する。
自己教師付き学習とCLIP事前学習を組み合わせたマルチタスク学習フレームワークSLIPを紹介する。
SLIPは、自己監督や言語監督よりも優れたパフォーマンスを享受しています。
論文 参考訳(メタデータ) (2021-12-23T18:07:13Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。