論文の概要: Improved baselines for vision-language pre-training
- arxiv url: http://arxiv.org/abs/2305.08675v1
- Date: Mon, 15 May 2023 14:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 14:15:36.617103
- Title: Improved baselines for vision-language pre-training
- Title(参考訳): 視覚言語事前学習のためのベースラインの改善
- Authors: Enrico Fini and Pietro Astolfi and Adriana Romero-Soriano and Jakob
Verbeek and Michal Drozdzal
- Abstract要約: コントラスト学習と自己教師付き学習を組み合わせることで得られるいくつかのベースラインを提案し,実装し,評価する。
これらのベースラインはCLIPの基本的な実装よりも優れています。
単純なCLIPベースラインも大幅に改善され、ダウンストリームゼロショットタスクでは25%の相対的な改善が達成できる。
- 参考スコア(独自算出の注目度): 26.525104683723452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning has emerged as an efficient framework to learn
multimodal representations. CLIP, a seminal work in this area, achieved
impressive results by training on paired image-text data using the contrastive
loss. Recent work claims improvements over CLIP using additional
non-contrastive losses inspired from self-supervised learning. However, it is
sometimes hard to disentangle the contribution of these additional losses from
other implementation details, e.g., data augmentation or regularization
techniques, used to train the model. To shed light on this matter, in this
paper, we first propose, implement and evaluate several baselines obtained by
combining contrastive learning with recent advances in self-supervised
learning. In particular, we use the loss functions that were proven successful
for visual self-supervised learning to align image and text modalities. We find
that these baselines outperform a basic implementation of CLIP. However, when a
stronger training recipe is employed, the advantage disappears. Indeed, we find
that a simple CLIP baseline can also be improved substantially, up to a 25%
relative improvement on downstream zero-shot tasks, by using well-known
training techniques that are popular in other subfields. Moreover, we discover
that it is enough to apply image and text augmentations to make up for most of
the improvement attained by prior works. With our improved training recipe for
CLIP, we obtain state-of-the-art performance on four standard datasets, and
consistently outperform prior work (up to +4% on the largest dataset), while
being substantially simpler.
- Abstract(参考訳): コントラスト学習はマルチモーダル表現を学習するための効率的なフレームワークとして登場した。
この領域の独創的な研究であるクリップは、コントラスト損失を使ってペア画像テキストデータをトレーニングすることで素晴らしい結果を得た。
最近の研究は、自己教師型学習にインスパイアされた非コントラスト的損失によるCLIPの改善を主張している。
しかし、モデルのトレーニングに使用されるデータ拡張や正規化といった他の実装の詳細から、これらの追加的な損失の貢献を外すのは難しい場合があります。
そこで本稿では,コントラスト学習と近年の自己教師型学習の進歩を組み合わせることで得られるいくつかの基本点を,まず提案し,実装し,評価する。
特に,視覚的自己指導学習において得られた損失関数を用いて画像とテキストのモダリティを整列させる。
これらのベースラインはCLIPの基本実装よりも優れています。
しかし、より強いトレーニングレシピを採用すると、その利点は消える。
実際、簡単なCLIPベースラインも大幅に改善され、他のサブフィールドで人気がある有名なトレーニング技術を使用することで、下流のゼロショットタスクを25%改善できることがわかった。
また,先行研究による改善のほとんどを補うために,画像やテキストの増補を適用するだけで十分であることがわかった。
clipのトレーニングレシピが改善されたことで,4つの標準データセットで最先端のパフォーマンスが得られ,従来作業(最大データセットでは最大+4%まで)を一貫して上回っています。
関連論文リスト
- Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - A Simple-but-effective Baseline for Training-free Class-Agnostic
Counting [30.792198686654075]
CAC(Class-Agnostic Counting)は、いくつかの参照例だけで、与えられた画像内のオブジェクトを正確にカウントすることを目指している。
近年の取り組みでは、既存の基礎モデルを利用することで、トレーニングなしでこれを達成できることが示されている。
我々は、このパフォーマンスギャップを効果的に橋渡しし、強力なベースラインとして機能する、トレーニング不要のソリューションを提案する。
論文 参考訳(メタデータ) (2024-03-03T07:19:50Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - Continual Contrastive Spoken Language Understanding [33.09005399967931]
COCONUTは、経験リプレイとコントラスト学習の組み合わせに依存するクラスインクリメンタルラーニング(CIL)手法である。
我々は,COCONUTをデコーダ側で動作するメソッドと組み合わせることで,さらなるメトリクス改善を実現することを示す。
論文 参考訳(メタデータ) (2023-10-04T10:09:12Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Pretext-Contrastive Learning: Toward Good Practices in Self-supervised
Video Representation Leaning [43.002621928500425]
そこで本稿では,プレテキストタスクとコントラスト学習の両方を強化するための共同最適化フレームワークを提案する。
PCLを標準的なトレーニング戦略として扱い、それを自己教師付きビデオ特徴学習の他の多くの分野に適用することは便利である。
論文 参考訳(メタデータ) (2020-10-29T10:20:35Z) - Rethinking Few-Shot Image Classification: a Good Embedding Is All You
Need? [72.00712736992618]
メタトレーニングセット上で教師付きあるいは自己教師型表現を学習する単純なベースラインが、最先端の数ショット学習方法より優れていることを示す。
追加の増量は自己蒸留によって達成できる。
我々は,この発見が,画像分類ベンチマークとメタ学習アルゴリズムの役割を再考する動機となっていると考えている。
論文 参考訳(メタデータ) (2020-03-25T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。