論文の概要: Exploring Quantization for Efficient Pre-Training of Transformer Language Models
- arxiv url: http://arxiv.org/abs/2407.11722v2
- Date: Fri, 11 Oct 2024 15:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 20:59:00.605026
- Title: Exploring Quantization for Efficient Pre-Training of Transformer Language Models
- Title(参考訳): 変圧器言語モデルの効率的な事前学習のための量子化探索
- Authors: Kamran Chitsaz, Quentin Fournier, Gonçalo Mordido, Sarath Chandar,
- Abstract要約: 本研究の目的は,変圧器の効率的な事前学習における量子化の影響を検討することである。
重み、アクティベーション、勾配、状態に直線量子化を体系的に適用することにより、トレーニング中のモデル効率、安定性、性能への影響を評価する。
- 参考スコア(独自算出の注目度): 11.696132057489786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing scale of Transformer models has led to an increase in their pre-training computational requirements. While quantization has proven to be effective after pre-training and during fine-tuning, applying quantization in Transformers during pre-training has remained largely unexplored at scale for language modeling. This study aims to explore the impact of quantization for efficient pre-training of Transformers, with a focus on linear layer components. By systematically applying straightforward linear quantization to weights, activations, gradients, and optimizer states, we assess its effects on model efficiency, stability, and performance during training. By offering a comprehensive recipe of effective quantization strategies to be applied during the pre-training of Transformers, we promote high training efficiency from scratch while retaining language modeling ability. Code is available at https://github.com/chandar-lab/EfficientLLMs.
- Abstract(参考訳): トランスフォーマーモデルのスケールの増大は、事前学習された計算要求の増加につながった。
事前学習と微調整の後に量子化が有効であることが証明されているが、事前学習中にトランスフォーマーに量子化を適用することは、言語モデリングの大規模化においてほとんど未検討のままである。
本研究の目的は、線形層成分に着目したトランスフォーマーの効率的な事前学習における量子化の影響を検討することである。
重み、アクティベーション、勾配、オプティマイザ状態に直線量子化を体系的に適用することにより、トレーニング中のモデル効率、安定性、性能への影響を評価する。
トランスフォーマーの事前学習に適用される効果的な量子化戦略の包括的レシピを提供することにより、言語モデリング能力を維持しながら、スクラッチから高いトレーニング効率を向上する。
コードはhttps://github.com/chandar-lab/EfficientLLMsで入手できる。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - LoQT: Low-Rank Adapters for Quantized Pretraining [5.767156832161818]
Low-Rank Adapters for Quantized Training (LoQT) は、量子化モデルの効率的なトレーニング方法である。
我々のアプローチは、事前学習モデルと微調整モデルの両方に適しています。
言語モデリングとダウンストリームタスク適応において,LoQTが最大7Bパラメータを24GBのGPU上で効率的にトレーニングできることを実証する。
論文 参考訳(メタデータ) (2024-05-26T11:29:57Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - Is It a Free Lunch for Removing Outliers during Pretraining? [7.621880623381026]
モデル事前学習を目的としたソフトマックス関数を,外乱のない方法で導入する。
このような手法が完全な精度で性能を低下させることを示す。
我々は、その正規化がシーケンス長に不変であることを保証して、その方法を強化する。
論文 参考訳(メタデータ) (2024-02-19T12:45:52Z) - Quantization-Aware and Tensor-Compressed Training of Transformers for
Natural Language Understanding [12.030179065286928]
本稿では,変圧器モデルにおけるモデルサイズ,演算演算,実行遅延を低減するために,量子化対応テンソル圧縮トレーニング手法を提案する。
あらかじめ訓練された変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。
パフォーマンスは2つの自然言語理解タスクで実証され、最大6,3倍の圧縮率、精度の低下、顕著な推論とトレーニングのスピードアップを示す。
論文 参考訳(メタデータ) (2023-06-01T18:32:08Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - In-Hindsight Quantization Range Estimation for Quantized Training [5.65658124285176]
従来の反復で推定した量子化範囲を用いて,現在を数値化する動的量子化手法であるin-hindsight range推定法を提案する。
今回のアプローチでは,ニューラルネットワークアクセラレータによる最小限のハードウェアサポートのみを必要としながら,勾配とアクティベーションの高速静的量子化を可能にする。
量子化範囲の推定のためのドロップイン代替として意図されており、他の量子化トレーニングの進歩と併用することができる。
論文 参考訳(メタデータ) (2021-05-10T10:25:28Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z) - Accelerating Training of Transformer-Based Language Models with
Progressive Layer Dropping [24.547833264405355]
提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。
トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
論文 参考訳(メタデータ) (2020-10-26T06:50:07Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。