論文の概要: Sigmoid Loss for Language Image Pre-Training
- arxiv url: http://arxiv.org/abs/2303.15343v2
- Date: Thu, 30 Mar 2023 17:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 16:19:55.014719
- Title: Sigmoid Loss for Language Image Pre-Training
- Title(参考訳): Sigmoid Loss for Language Image Pre-Training (英語)
- Authors: Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer
- Abstract要約: 画像テキスト事前学習のための単純な一対のシグモイド損失を提案する。
シグモイド損失は画像とテキストのペアのみに作用し、正規化のためにペアの類似点のグローバルなビューを必要としない。
4つのTPUv4チップで、4kバッチサイズでBase CLIPモデルを、20kバッチサイズでLarge LiTモデルをトレーニングできます。
- 参考スコア(独自算出の注目度): 97.74532262088182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a simple pairwise sigmoid loss for image-text pre-training. Unlike
standard contrastive learning with softmax normalization, the sigmoid loss
operates solely on image-text pairs and does not require a global view of the
pairwise similarities for normalization. The sigmoid loss simultaneously allows
further scaling up the batch size, while also performing better at smaller
batch sizes. With only four TPUv4 chips, we can train a Base CLIP model at 4k
batch size and a Large LiT model at 20k batch size, the latter achieves 84.5%
ImageNet zero-shot accuracy in two days. This disentanglement of the batch size
from the loss further allows us to study the impact of examples vs pairs and
negative to positive ratio. Finally, we push the batch size to the extreme, up
to one million, and find that the benefits of growing batch size quickly
diminish, with a more reasonable batch size of 32k being sufficient. We hope
our research motivates further explorations in improving the quality and
efficiency of language-image pre-training.
- Abstract(参考訳): 画像テキスト事前学習のための簡易なペアワイズsgmoid損失を提案する。
ソフトマックス正規化を伴う標準的なコントラスト学習とは異なり、シグモイド損失は画像とテキストのペアのみにのみ依存し、正規化にペアの類似点のグローバルなビューを必要としない。
Sigmoidの損失により、バッチサイズをさらにスケールアップできると同時に、より小さなバッチサイズでもパフォーマンスが向上する。
4つのTPUv4チップで、4kバッチサイズでBase CLIPモデルと20kバッチサイズでLarge LiTモデルをトレーニングでき、後者は2日間で84.5%のImageNetゼロショット精度を実現している。
このバッチサイズと損失のばらつきにより、サンプル対対および正の比率に対する負の影響をさらに研究することができる。
最後に、バッチサイズを最大100万まで極端にプッシュし、バッチサイズの増大によるメリットが急速に減少し、より合理的なバッチサイズである32kが十分であることが分かりました。
我々の研究は、言語イメージ事前学習の品質と効率を改善するためのさらなる研究を動機づけることを願っている。
関連論文リスト
- ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - A Recipe for Efficient SBIR Models: Combining Relative Triplet Loss with
Batch Normalization and Knowledge Distillation [3.364554138758565]
SBIR(Sketch-Based Image Retrieval)は、マルチメディア検索において重要なタスクであり、指定されたスケッチクエリにマッチした画像の集合を検索することを目的としている。
我々は, アンカーの類似性に基づく損失重み付けにより, 制限を克服する適応三重項損失である相対三重項損失(RTL)を導入する。
本稿では, 知識蒸留による精度の限界損失を抑えて, 小型モデルを効率的に訓練するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T12:41:04Z) - Exploiting Unlabelled Photos for Stronger Fine-Grained SBIR [103.51937218213774]
本稿では,先行技術の11%をオーバーシュートする強力なベースラインを提示することにより,微細なスケッチベース画像検索(FG-SBIR)の文献化を推し進める。
本稿では,写真/スケッチインスタンス間の分離を明示的に実施する標準的な三重項損失の簡単な修正を提案する。
i) スケッチ間でのモダル内トリプルトロスを利用して、同じインスタンスのスケッチを他のインスタンスに近づけます。
論文 参考訳(メタデータ) (2023-03-24T03:34:33Z) - Scaling Language-Image Pre-training via Masking [63.36988191660858]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。
マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。
FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文 参考訳(メタデータ) (2022-12-01T18:59:57Z) - Combined Scaling for Zero-shot Transfer Learning [146.0851484769142]
我々は,ImageNet ILSVRC-2012バリデーションセットにおいて,85.7%のトップ1の精度を達成できるBASICと組み合わせたスケーリング手法を提案する。
この精度はCLIPとALIGNの9.3%を超える。
我々のモデルは、ロバストネスベンチマークの大幅な改善も示しています。
論文 参考訳(メタデータ) (2021-11-19T05:25:46Z) - End-to-End Supermask Pruning: Learning to Prune Image Captioning Models [17.00974730372399]
80%から95%のスパースネットワークが、その密度の高いネットワークにマッチするか、より優れているかを示す。
Up-Down と Object Relation Transformer のコードと事前訓練されたモデルは、MS-COCO データセット上で CIDEr スコア >120 を達成することができる。
論文 参考訳(メタデータ) (2021-10-07T09:34:00Z) - EqCo: Equivalent Rules for Self-supervised Contrastive Learning [81.45848885547754]
本稿では,InfoNCEをベースとしたコントラスト学習フレームワークにおいて,負のサンプル数と無関係に自己教師型学習を実現する手法を提案する。
InfoMaxの原理に着想を得て、負のペアの数に応じて、対照的な損失のマージン項を適応的にスケールする必要があることを指摘する。
論文 参考訳(メタデータ) (2020-10-05T11:39:04Z) - Scalable and Practical Natural Gradient for Large-Scale Deep Learning [19.220930193896404]
SP-NGDは1次法に比べて計算オーバーヘッドが無視できるような大きなミニバッチサイズにスケールする。
また,SP-NGDの873ステップにおいて,超大小バッチサイズ131,072の74.9%,32,768の1024GPUを用いた5.5分でトップ1検証精度75.4%の収束性を示した。
論文 参考訳(メタデータ) (2020-02-13T11:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。