論文の概要: Masked Autoencoding Does Not Help Natural Language Supervision at Scale
- arxiv url: http://arxiv.org/abs/2301.07836v3
- Date: Tue, 25 Apr 2023 01:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 23:53:48.200558
- Title: Masked Autoencoding Does Not Help Natural Language Supervision at Scale
- Title(参考訳): マスク付き自動エンコーディングは自然言語を大規模に監視するのに役立たない
- Authors: Floris Weers, Vaishaal Shankar, Angelos Katharopoulos, Yinfei Yang,
Tom Gunter
- Abstract要約: より大量のデータでトレーニングした場合、同様のアプローチが有効かどうかを検討する。
マスク付きオートエンコーダ、MAE、コントラスト言語イメージ事前トレーニングの2つの方法を組み合わせることで、CLIPは11.3Mイメージテキストペアのコーパスでトレーニングした場合、CLIPよりもメリットがあることがわかった。
- 参考スコア(独自算出の注目度): 16.277390808400828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self supervision and natural language supervision have emerged as two
exciting ways to train general purpose image encoders which excel at a variety
of downstream tasks. Recent works such as M3AE and SLIP have suggested that
these approaches can be effectively combined, but most notably their results
use small pre-training datasets (<50M samples) and don't effectively reflect
the large-scale regime (>100M examples) that is commonly used for these
approaches. Here we investigate whether a similar approach can be effective
when trained with a much larger amount of data. We find that a combination of
two state of the art approaches: masked auto-encoders, MAE and contrastive
language image pre-training, CLIP provides a benefit over CLIP when trained on
a corpus of 11.3M image-text pairs, but little to no benefit (as evaluated on a
suite of common vision tasks) over CLIP when trained on a large corpus of 1.4B
images. Our work provides some much needed clarity into the effectiveness (or
lack thereof) of self supervision for large-scale image-text training.
- Abstract(参考訳): 自己監督と自然言語監督は、様々な下流タスクに優れた汎用画像エンコーダを訓練する2つのエキサイティングな方法として登場した。
m3aeやslipのような最近の研究は、これらのアプローチを効果的に組み合わせられることを示唆しているが、最も注目すべきは、小さな事前トレーニングデータセット(<50mサンプル)を使用しており、これらのアプローチで一般的に使用される大規模なレジーム(>100mサンプル)を効果的に反映していないことである。
ここでは、同様のアプローチが、はるかに多くのデータでトレーニングした場合に有効かどうかを検討する。
マスク付きオートエンコーダ,MAE,コントラスト言語イメージ事前トレーニングの2つの方法を組み合わせることで,CLIPは11.3Mイメージテキストペアのコーパスでトレーニングされた場合にはCLIPよりもメリットを提供するが,1.4Bイメージの大規模なコーパスでトレーニングされた場合には,CLIPに対する(一般的なビジョンタスクのスイートで評価された)メリットはほとんどない。
私たちの研究は、大規模な画像テキストトレーニングにおける自己監督の有効性(あるいは欠如)について、必要な明確さを提供します。
関連論文リスト
- Enhancing Vision-Language Model with Unmasked Token Alignment [37.12838142681491]
本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。
UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。
論文 参考訳(メタデータ) (2024-05-29T11:48:17Z) - CLIP with Quality Captions: A Strong Pretraining for Vision Tasks [16.208506912410147]
良質なキャプションを用いたCLIPプレトレーニングは,近年の教師付き・自己監督型・弱教師付きプレトレーニング方法を上回る可能性がある。
モバイルアーキテクチャはCLIP事前トレーニングのメリットも大きいことが分かっています。
論文 参考訳(メタデータ) (2024-05-14T19:06:24Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Scaling Language-Image Pre-training via Masking [63.36988191660858]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。
マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。
FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文 参考訳(メタデータ) (2022-12-01T18:59:57Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。