論文の概要: Scaling Language-Image Pre-training via Masking
- arxiv url: http://arxiv.org/abs/2212.00794v1
- Date: Thu, 1 Dec 2022 18:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 16:42:07.090797
- Title: Scaling Language-Image Pre-training via Masking
- Title(参考訳): マスキングによる言語画像事前学習のスケーリング
- Authors: Yanghao Li, Haoqi Fan, Ronghang Hu, Christoph Feichtenhofer, Kaiming
He
- Abstract要約: 高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。
マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。
FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
- 参考スコア(独自算出の注目度): 63.36988191660858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Fast Language-Image Pre-training (FLIP), a simple and more
efficient method for training CLIP. Our method randomly masks out and removes a
large portion of image patches during training. Masking allows us to learn from
more image-text pairs given the same wall-clock time and contrast more samples
per iteration with similar memory footprint. It leads to a favorable trade-off
between accuracy and training time. In our experiments on 400 million
image-text pairs, FLIP improves both accuracy and speed over the no-masking
baseline. On a large diversity of downstream tasks, FLIP dominantly outperforms
the CLIP counterparts trained on the same data. Facilitated by the speedup, we
explore the scaling behavior of increasing the model size, data size, or
training length, and report encouraging results and comparisons. We hope that
our work will foster future research on scaling vision-language learning.
- Abstract(参考訳): CLIPの簡易かつ効率的な訓練法であるFLIP(Fast Language- Image Pre-training)を提案する。
本手法は,トレーニング中の画像パッチの大部分をランダムにマスクアウトし,除去する。
マスキングによって、同じウォールクロック時間でより多くの画像テキストペアから学ぶことができ、同じメモリフットプリントで、イテレーション毎により多くのサンプルをコントラストできる。
正確さとトレーニング時間の間の良好なトレードオフにつながります。
4億の画像テキストペアに対する実験では、FLIPは非マスキングベースラインよりも精度と速度を向上する。
下流タスクの多様さにおいて、FLIPは同じデータでトレーニングされたCLIPタスクよりも圧倒的に優れています。
スピードアップに特化して、モデルサイズ、データサイズ、トレーニング長の増大によるスケーリングの挙動を調査し、奨励的な結果と比較を報告する。
私たちの研究が視覚言語学習のスケーリングに関する将来の研究を促進することを期待しています。
関連論文リスト
- ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Autoencoding Does Not Help Natural Language Supervision at Scale [16.277390808400828]
より大量のデータでトレーニングした場合、同様のアプローチが有効かどうかを検討する。
マスク付きオートエンコーダ、MAE、コントラスト言語イメージ事前トレーニングの2つの方法を組み合わせることで、CLIPは11.3Mイメージテキストペアのコーパスでトレーニングした場合、CLIPよりもメリットがあることがわかった。
論文 参考訳(メタデータ) (2023-01-19T01:05:18Z) - ProtoCLIP: Prototypical Contrastive Language Image Pretraining [12.067061175987075]
このようなグループ化を強化するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。
ProtoCLIPは、画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。
ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
論文 参考訳(メタデータ) (2022-06-22T11:55:53Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。