論文の概要: Combined Scaling for Zero-shot Transfer Learning
- arxiv url: http://arxiv.org/abs/2111.10050v1
- Date: Fri, 19 Nov 2021 05:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 01:08:32.471412
- Title: Combined Scaling for Zero-shot Transfer Learning
- Title(参考訳): ゼロショット転送学習のための複合スケーリング
- Authors: Hieu Pham, Zihang Dai, Golnaz Ghiasi, Hanxiao Liu, Adams Wei Yu,
Minh-Thang Luong, Mingxing Tan, Quoc V. Le
- Abstract要約: 我々は,ImageNet ILSVRC-2012バリデーションセット上で,85.7%のトップ1ゼロショット精度を実現するBASICという組み合わせのスケーリング手法を提案する。
我々のモデルは、ロバストネスベンチマークの大幅な改善も示しています。
- 参考スコア(独自算出の注目度): 94.49233278611142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a combined scaling method called BASIC that achieves 85.7% top-1
zero-shot accuracy on the ImageNet ILSVRC-2012 validation set, surpassing the
best-published zero-shot models - CLIP and ALIGN - by 9.3%. Our BASIC model
also shows significant improvements in robustness benchmarks. For instance, on
5 test sets with natural distribution shifts such as ImageNet-{A,R,V2,Sketch}
and ObjectNet, our model achieves 83.7% top-1 average accuracy, only a small
drop from the its original ImageNet accuracy.
To achieve these results, we scale up the contrastive learning framework of
CLIP and ALIGN in three dimensions: data size, model size, and batch size. Our
dataset has 6.6B noisy image-text pairs, which is 4x larger than ALIGN, and 16x
larger than CLIP. Our largest model has 3B weights, which is 3.75x larger in
parameters and 8x larger in FLOPs than ALIGN and CLIP. Our batch size is 65536
which is 2x more than CLIP and 4x more than ALIGN. The main challenge with
scaling is the limited memory of our accelerators such as GPUs and TPUs. We
hence propose a simple method of online gradient caching to overcome this
limit.
- Abstract(参考訳): 我々は、ImageNet ILSVRC-2012バリデーションセットにおいて、85.7%のトップ1ゼロショット精度を達成し、最高のゼロショットモデルであるCLIPとALIGNを9.3%上回るBASICと呼ばれるスケーリング手法を提案する。
私たちの基本的なモデルは、ロバスト性ベンチマークも大幅に改善しています。
例えば、ImageNet-{A,R,V2,Sketch} や ObjectNet のような自然な分布シフトを持つ5つのテストセットでは、私たちのモデルは83.7%の最高1の精度を達成しています。
これらの結果を得るために,データサイズ,モデルサイズ,バッチサイズという,CLIPとALIGNの対比学習フレームワークを3次元でスケールアップした。
我々のデータセットには6.6Bのノイズの多い画像テキストペアがあり、ALIGNより4倍、CLIPより16倍大きい。
我々の最大のモデルは3B重みを持ち、パラメータは3.75倍、FLOPはALIGNやCLIPよりも8倍大きい。
バッチサイズは65536で、CLIPの2倍、ALIGNの4倍です。
スケーリングの主な課題は、GPUやTPUといったアクセラレータのメモリ制限です。
そこで我々は,この限界を克服するためのオンライン勾配キャッシング手法を提案する。
関連論文リスト
- Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models [111.97026994761254]
Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。
MoTはモデルの非埋め込みパラメータをモダリティで分離する。
複数の設定とモデルスケールでMoTを評価する。
論文 参考訳(メタデータ) (2024-11-07T18:59:06Z) - Speeding Up Image Classifiers with Little Companions [5.9999780224657195]
ニューラルネットワークのスケールアップは、大規模な言語とビジョンモデルの成功の鍵となるレシピである。
まず、軽量の"リトル"モデルを用いて、すべてのサンプルの予測を行う。
Little-Bigはまた、Intern Image-G-512をスピードアップし、90%のImageNet-1Kトップ1の精度を達成した。
論文 参考訳(メタデータ) (2024-06-24T20:11:46Z) - FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models
for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。
本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。
ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文 参考訳(メタデータ) (2024-02-21T05:03:17Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - Sigmoid Loss for Language Image Pre-Training [93.91385557929604]
本稿では,Language-Image Pre-Training (SigLIP) のための単純なペアワイズ・シグモイド・ロスを提案する。
シグモイド損失は画像とテキストのペアのみに作用し、正規化のためにペアの類似点のグローバルなビューを必要としない。
Locked-image Tuningと4つのTPUv4チップの組み合わせで、84.5%のImageNetゼロショット精度を2日間で達成するSigLiTモデルを訓練する。
論文 参考訳(メタデータ) (2023-03-27T15:53:01Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - SimMIM: A Simple Framework for Masked Image Modeling [29.015777125540613]
本稿では,マスク画像モデリングのためのシンプルなフレームワークであるSimについて述べる。
フレームワークの主要なコンポーネントについて検討し、各コンポーネントのシンプルな設計が、非常に強力な表現学習性能を示した。
また、このアプローチを利用して3Bモデルのトレーニングをしやすくし、従来の4つの代表的なビジョンベンチマークよりも40ドル安いデータで、最先端の4つのビジョンベンチマークを実現しています。
論文 参考訳(メタデータ) (2021-11-18T18:59:45Z) - Scalable and Practical Natural Gradient for Large-Scale Deep Learning [19.220930193896404]
SP-NGDは1次法に比べて計算オーバーヘッドが無視できるような大きなミニバッチサイズにスケールする。
また,SP-NGDの873ステップにおいて,超大小バッチサイズ131,072の74.9%,32,768の1024GPUを用いた5.5分でトップ1検証精度75.4%の収束性を示した。
論文 参考訳(メタデータ) (2020-02-13T11:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。