論文の概要: Combined Scaling for Zero-shot Transfer Learning
- arxiv url: http://arxiv.org/abs/2111.10050v3
- Date: Wed, 12 Apr 2023 08:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 19:32:43.484835
- Title: Combined Scaling for Zero-shot Transfer Learning
- Title(参考訳): ゼロショット転送学習のための複合スケーリング
- Authors: Hieu Pham, Zihang Dai, Golnaz Ghiasi, Kenji Kawaguchi, Hanxiao Liu,
Adams Wei Yu, Jiahui Yu, Yi-Ting Chen, Minh-Thang Luong, Yonghui Wu, Mingxing
Tan, Quoc V. Le
- Abstract要約: 我々は,ImageNet ILSVRC-2012バリデーションセットにおいて,85.7%のトップ1の精度を達成できるBASICと組み合わせたスケーリング手法を提案する。
この精度はCLIPとALIGNの9.3%を超える。
我々のモデルは、ロバストネスベンチマークの大幅な改善も示しています。
- 参考スコア(独自算出の注目度): 146.0851484769142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a combined scaling method - named BASIC - that achieves 85.7%
top-1 accuracy on the ImageNet ILSVRC-2012 validation set without learning from
any labeled ImageNet example. This accuracy surpasses best published similar
models - CLIP and ALIGN - by 9.3%. Our BASIC model also shows significant
improvements in robustness benchmarks. For instance, on 5 test sets with
natural distribution shifts such as ImageNet-{A,R,V2,Sketch} and ObjectNet, our
model achieves 84.3% top-1 average accuracy, only a small drop from its
original ImageNet accuracy. To achieve these results, we scale up the
contrastive learning framework of CLIP and ALIGN in three dimensions: data
size, model size, and batch size. Our dataset has 6.6B noisy image-text pairs,
which is 4x larger than ALIGN, and 16x larger than CLIP. Our largest model has
3B weights, which is 3.75x larger in parameters and 8x larger in FLOPs than
ALIGN and CLIP. Finally, our batch size is 65536 which is 2x more than CLIP and
4x more than ALIGN. We encountered two main challenges with the scaling rules
of BASIC. First, the main challenge with implementing the combined scaling
rules of BASIC is the limited memory of accelerators, such as GPUs and TPUs. To
overcome the memory limit, we propose two simple methods which make use of
gradient checkpointing and model parallelism. Second, while increasing the
dataset size and the model size has been the defacto method to improve the
performance of deep learning models like BASIC, the effect of a large
contrastive batch size on such contrastive-trained image-text models is not
well-understood. To shed light on the benefits of large contrastive batch
sizes, we develop a theoretical framework which shows that larger contrastive
batch sizes lead to smaller generalization gaps for image-text models such as
BASIC.
- Abstract(参考訳): 我々は,ImageNet ILSVRC-2012バリデーションセットにおいて,ラベル付きImageNet例から学習することなく85.7%のトップ1の精度を実現する,BASICという組み合わせスケーリング手法を提案する。
この精度は、最もよく出版された類似のモデルであるクリップとアライメントを9.3%上回っている。
私たちの基本的なモデルは、ロバスト性ベンチマークも大幅に改善しています。
例えば、ImageNet-{A,R,V2,Sketch} や ObjectNet のような自然な分布シフトを持つ5つのテストセットにおいて、我々のモデルは84.3%のTop-1平均精度を達成する。
これらの結果を得るために,データサイズ,モデルサイズ,バッチサイズという,CLIPとALIGNの対比学習フレームワークを3次元でスケールアップした。
我々のデータセットには6.6Bのノイズの多い画像テキストペアがあり、ALIGNより4倍、CLIPより16倍大きい。
我々の最大のモデルは3B重みを持ち、パラメータは3.75倍、FLOPはALIGNやCLIPよりも8倍大きい。
最後に、バッチサイズは65536で、CLIPの2倍、ALIGNの4倍です。
BASICのスケーリングルールでは,2つの大きな課題に遭遇した。
まず、basicの複合スケーリングルールを実装する上での最大の課題は、gpuやtpusといったアクセラレータのメモリ制限である。
メモリ制限を克服するために,グラデーションチェックポイントとモデル並列性を用いた2つの簡単な手法を提案する。
第二に、データセットのサイズとモデルサイズを増加させることは、basicのようなディープラーニングモデルのパフォーマンスを改善するためのデファクトな方法であるが、そのようなコントラスト訓練された画像テキストモデルに対する大きなコントラストバッチサイズの影響はよく理解されていない。
そこで我々は,BASICのような画像テキストモデルに対して,大きなコントラストバッチサイズがより小さい一般化ギャップをもたらすことを示す理論的枠組みを開発した。
関連論文リスト
- Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models [111.97026994761254]
Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。
MoTはモデルの非埋め込みパラメータをモダリティで分離する。
複数の設定とモデルスケールでMoTを評価する。
論文 参考訳(メタデータ) (2024-11-07T18:59:06Z) - Speeding Up Image Classifiers with Little Companions [5.9999780224657195]
ニューラルネットワークのスケールアップは、大規模な言語とビジョンモデルの成功の鍵となるレシピである。
まず、軽量の"リトル"モデルを用いて、すべてのサンプルの予測を行う。
Little-Bigはまた、Intern Image-G-512をスピードアップし、90%のImageNet-1Kトップ1の精度を達成した。
論文 参考訳(メタデータ) (2024-06-24T20:11:46Z) - FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models
for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。
本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。
ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文 参考訳(メタデータ) (2024-02-21T05:03:17Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - Sigmoid Loss for Language Image Pre-Training [93.91385557929604]
本稿では,Language-Image Pre-Training (SigLIP) のための単純なペアワイズ・シグモイド・ロスを提案する。
シグモイド損失は画像とテキストのペアのみに作用し、正規化のためにペアの類似点のグローバルなビューを必要としない。
Locked-image Tuningと4つのTPUv4チップの組み合わせで、84.5%のImageNetゼロショット精度を2日間で達成するSigLiTモデルを訓練する。
論文 参考訳(メタデータ) (2023-03-27T15:53:01Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - SimMIM: A Simple Framework for Masked Image Modeling [29.015777125540613]
本稿では,マスク画像モデリングのためのシンプルなフレームワークであるSimについて述べる。
フレームワークの主要なコンポーネントについて検討し、各コンポーネントのシンプルな設計が、非常に強力な表現学習性能を示した。
また、このアプローチを利用して3Bモデルのトレーニングをしやすくし、従来の4つの代表的なビジョンベンチマークよりも40ドル安いデータで、最先端の4つのビジョンベンチマークを実現しています。
論文 参考訳(メタデータ) (2021-11-18T18:59:45Z) - Scalable and Practical Natural Gradient for Large-Scale Deep Learning [19.220930193896404]
SP-NGDは1次法に比べて計算オーバーヘッドが無視できるような大きなミニバッチサイズにスケールする。
また,SP-NGDの873ステップにおいて,超大小バッチサイズ131,072の74.9%,32,768の1024GPUを用いた5.5分でトップ1検証精度75.4%の収束性を示した。
論文 参考訳(メタデータ) (2020-02-13T11:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。