Fugu-MT 論文翻訳(概要): Stable and low-precision training for large-scale vision-language models

論文の概要: Stable and low-precision training for large-scale vision-language models

arxiv url: http://arxiv.org/abs/2304.13013v2
Date: Tue, 17 Oct 2023 00:11:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 22:11:09.290270
Title: Stable and low-precision training for large-scale vision-language models
Title（参考訳）: 大規模視覚言語モデルのための安定・低精度トレーニング
Authors: Mitchell Wortsman, Tim Dettmers, Luke Zettlemoyer, Ari Morcos, Ali Farhadi, Ludwig Schmidt
Abstract要約: 本稿では,大規模言語ビジョンモデルの学習の高速化と安定化のための新しい手法を提案する。 Int8量子化トレーニングのための線形層であるSwitchBackを導入し,13～25%の高速化を実現した。安定のために、損失スパイクを解析し、二乗勾配が過小評価された後に連続して1～8回発生することを発見した。
参考スコア（独自算出の注目度）: 108.62077651227607
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce new methods for 1) accelerating and 2) stabilizing training for large language-vision models. 1) For acceleration, we introduce SwitchBack, a linear layer for int8 quantized training which provides a speed-up of 13-25% while matching the performance of bfloat16 training within 0.1 percentage points for the 1B parameter CLIP ViT-Huge -- the largest int8 training to date. Our main focus is int8 as GPU support for float8 is rare, though we also analyze float8 training through simulation. While SwitchBack proves effective for float8, we show that standard techniques are also successful if the network is trained and initialized so that large feature magnitudes are discouraged, which we accomplish via layer-scale initialized with zeros. 2) For stability, we analyze loss spikes and find they consistently occur 1-8 iterations after the squared gradients become under-estimated by their AdamW second moment estimator. As a result, we recommend an AdamW-Adafactor hybrid which avoids loss spikes when training a CLIP ViT-Huge model and outperforms gradient clipping at the scales we test.
Abstract（参考訳）: 新しい方法を紹介します 1)加速・加速 2)大規模言語視モデルの安定化訓練。 1) Int8量子化トレーニングの線形層であるSwitchBackを導入し,bfloat16トレーニングのパフォーマンスを1BパラメータであるCLIP ViT-Hugeの0.1ポイント以内で比較しながら,13～25%の高速化を実現した。 float8のgpuサポートは稀ですが、シミュレーションを通じてfloat8トレーニングも分析しています。 SwitchBackはfloat8に有効であることが証明されているが、ネットワークがトレーニングされ初期化され、大きな特徴が無視され、ゼロで初期化された層スケールで達成される場合、標準技術も成功していることを示す。 2) 安定のために損失スパイクを解析し,AdamW第2モーメント推定器によって2乗勾配が過小評価された後に連続して1-8回発生することを示した。その結果、CLIP ViT-Hugeモデルをトレーニングする際の損失スパイクを回避し、テストするスケールでの勾配クリッピングより優れるAdamW-Adafactorハイブリッドを推奨する。

関連論文リスト

Towards Fully FP8 GEMM LLM Training at Scale [77.39425361120466]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文参考訳（メタデータ） (2025-05-26T21:04:14Z)
Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam [94.00189300897694]
低ビット精度は感度学習率を増幅し、しばしば不安定な勾配ノルムを引き起こす。本研究では, 勾配正規化とクリッピングを併用したスタブルSPAMを提案する。実験により,Stable-SPAMは4ビットトレーニングの勾配ノルムを効果的に安定化し,AdamやSPAMよりも優れた性能を実現することが示された。
論文参考訳（メタデータ） (2025-02-24T11:09:15Z)
Continual Quantization-Aware Pre-Training: When to transition from 16-bit to 1.58-bit pre-training for BitNet language models? [5.67099529296254]
大規模言語モデル(LLM)は、トレーニングと推論に膨大なリソースを必要とする。近年の研究では、重量パラメータ1本あたり1.58ビットのLSMをスクラッチからトレーニングすることは、モデルの精度を維持することができることが示唆されている。
論文参考訳（メタデータ） (2025-02-17T15:21:11Z)
Stepping Forward on the Last Mile [8.756033984943178]
本稿では,バックプロパゲーションと比較してメモリフットプリントと精度のギャップを低減させるアルゴリズムの一連の拡張を提案する。その結果、エッジデバイス上でのモデルカスタマイズの最後のマイルでは、固定点前方勾配によるトレーニングが実現可能で実践的なアプローチであることが示されている。
論文参考訳（メタデータ） (2024-11-06T16:33:21Z)
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。 COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。 COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文参考訳（メタデータ） (2024-10-25T05:59:30Z)
Scaling FP8 training to trillion-token LLMs [26.195547788434908]
最大2兆トークンのデータセット上でFP8精度を使用して、大規模な言語モデルをトレーニングします。我々は,FP8トレーニングにおいて,より短い期間で観察できない重大な障害を発見した。 Smooth-SwiGLUは機能変更なしに安定したFP8トレーニングを実現する新しい修正である。
論文参考訳（メタデータ） (2024-09-19T07:15:58Z)
Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文参考訳（メタデータ） (2023-05-09T07:00:17Z)
Peeling the Onion: Hierarchical Reduction of Data Redundancy for Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-19T21:15:47Z)
Do We Need Zero Training Loss After Achieving Zero Training Error? [76.44358201918156]
本研究では,遠心分離法(Emphflooding)と呼ばれる直接解法を提案する。本研究では, 浸水により性能が向上し, 副産物として, 試験損失の2重降下曲線が誘導されることを実験的に示す。
論文参考訳（メタデータ） (2020-02-20T12:50:49Z)
Shifted and Squeezed 8-bit Floating Point format for Low-Precision Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文参考訳（メタデータ） (2020-01-16T06:38:27Z)
Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文参考訳（メタデータ） (2019-12-29T08:37:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。