論文の概要: Stable and low-precision training for large-scale vision-language models
- arxiv url: http://arxiv.org/abs/2304.13013v2
- Date: Tue, 17 Oct 2023 00:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 22:11:09.290270
- Title: Stable and low-precision training for large-scale vision-language models
- Title(参考訳): 大規模視覚言語モデルのための安定・低精度トレーニング
- Authors: Mitchell Wortsman, Tim Dettmers, Luke Zettlemoyer, Ari Morcos, Ali
Farhadi, Ludwig Schmidt
- Abstract要約: 本稿では,大規模言語ビジョンモデルの学習の高速化と安定化のための新しい手法を提案する。
Int8量子化トレーニングのための線形層であるSwitchBackを導入し,13~25%の高速化を実現した。
安定のために、損失スパイクを解析し、二乗勾配が過小評価された後に連続して1~8回発生することを発見した。
- 参考スコア(独自算出の注目度): 108.62077651227607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce new methods for 1) accelerating and 2) stabilizing training for
large language-vision models. 1) For acceleration, we introduce SwitchBack, a
linear layer for int8 quantized training which provides a speed-up of 13-25%
while matching the performance of bfloat16 training within 0.1 percentage
points for the 1B parameter CLIP ViT-Huge -- the largest int8 training to date.
Our main focus is int8 as GPU support for float8 is rare, though we also
analyze float8 training through simulation. While SwitchBack proves effective
for float8, we show that standard techniques are also successful if the network
is trained and initialized so that large feature magnitudes are discouraged,
which we accomplish via layer-scale initialized with zeros. 2) For stability,
we analyze loss spikes and find they consistently occur 1-8 iterations after
the squared gradients become under-estimated by their AdamW second moment
estimator. As a result, we recommend an AdamW-Adafactor hybrid which avoids
loss spikes when training a CLIP ViT-Huge model and outperforms gradient
clipping at the scales we test.
- Abstract(参考訳): 新しい方法を紹介します
1)加速・加速
2)大規模言語視モデルの安定化訓練。
1) Int8量子化トレーニングの線形層であるSwitchBackを導入し,bfloat16トレーニングのパフォーマンスを1BパラメータであるCLIP ViT-Hugeの0.1ポイント以内で比較しながら,13~25%の高速化を実現した。
float8のgpuサポートは稀ですが、シミュレーションを通じてfloat8トレーニングも分析しています。
SwitchBackはfloat8に有効であることが証明されているが、ネットワークがトレーニングされ初期化され、大きな特徴が無視され、ゼロで初期化された層スケールで達成される場合、標準技術も成功していることを示す。
2) 安定のために損失スパイクを解析し,AdamW第2モーメント推定器によって2乗勾配が過小評価された後に連続して1-8回発生することを示した。
その結果、CLIP ViT-Hugeモデルをトレーニングする際の損失スパイクを回避し、テストするスケールでの勾配クリッピングより優れるAdamW-Adafactorハイブリッドを推奨する。
関連論文リスト
- Stepping Forward on the Last Mile [8.756033984943178]
本稿では,バックプロパゲーションと比較してメモリフットプリントと精度のギャップを低減させるアルゴリズムの一連の拡張を提案する。
その結果、エッジデバイス上でのモデルカスタマイズの最後のマイルでは、固定点前方勾配によるトレーニングが実現可能で実践的なアプローチであることが示されている。
論文 参考訳(メタデータ) (2024-11-06T16:33:21Z) - COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。
COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。
COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文 参考訳(メタデータ) (2024-10-25T05:59:30Z) - Scaling FP8 training to trillion-token LLMs [26.195547788434908]
最大2兆トークンのデータセット上でFP8精度を使用して、大規模な言語モデルをトレーニングします。
我々は,FP8トレーニングにおいて,より短い期間で観察できない重大な障害を発見した。
Smooth-SwiGLUは機能変更なしに安定したFP8トレーニングを実現する新しい修正である。
論文 参考訳(メタデータ) (2024-09-19T07:15:58Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Do We Need Zero Training Loss After Achieving Zero Training Error? [76.44358201918156]
本研究では,遠心分離法(Emphflooding)と呼ばれる直接解法を提案する。
本研究では, 浸水により性能が向上し, 副産物として, 試験損失の2重降下曲線が誘導されることを実験的に示す。
論文 参考訳(メタデータ) (2020-02-20T12:50:49Z) - Shifted and Squeezed 8-bit Floating Point format for Low-Precision
Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。
ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。
提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文 参考訳(メタデータ) (2020-01-16T06:38:27Z) - Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。
まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。
勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文 参考訳(メタデータ) (2019-12-29T08:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。