論文の概要: Quantization-Aware and Tensor-Compressed Training of Transformers for
Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2306.01076v2
- Date: Sat, 8 Jul 2023 04:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 18:16:20.230845
- Title: Quantization-Aware and Tensor-Compressed Training of Transformers for
Natural Language Understanding
- Title(参考訳): 自然言語理解のための変圧器の量子化とテンソル圧縮訓練
- Authors: Zi Yang, Samridhi Choudhary, Siegfried Kunzmann, Zheng Zhang
- Abstract要約: 本稿では,変圧器モデルにおけるモデルサイズ,演算演算,実行遅延を低減するために,量子化対応テンソル圧縮トレーニング手法を提案する。
あらかじめ訓練された変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。
パフォーマンスは2つの自然言語理解タスクで実証され、最大6,3倍の圧縮率、精度の低下、顕著な推論とトレーニングのスピードアップを示す。
- 参考スコア(独自算出の注目度): 12.030179065286928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuned transformer models have shown superior performances in many
natural language tasks. However, the large model size prohibits deploying
high-performance transformer models on resource-constrained devices. This paper
proposes a quantization-aware tensor-compressed training approach to reduce the
model size, arithmetic operations, and ultimately runtime latency of
transformer-based models. We compress the embedding and linear layers of
transformers into small low-rank tensor cores, which significantly reduces
model parameters. A quantization-aware training with learnable scale factors is
used to further obtain low-precision representations of the tensor-compressed
models. The developed approach can be used for both end-to-end training and
distillation-based training. To improve the convergence, a layer-by-layer
distillation is applied to distill a quantized and tensor-compressed student
model from a pre-trained transformer. The performance is demonstrated in two
natural language understanding tasks, showing up to $63\times$ compression
ratio, little accuracy loss and remarkable inference and training speedup.
- Abstract(参考訳): 微調整トランスフォーマーモデルは、多くの自然言語タスクにおいて優れた性能を示している。
しかし、大きなモデルサイズは、リソース制約のあるデバイスに高性能トランスフォーマーモデルを展開することを禁止している。
本稿では,モデルサイズ,演算演算,最終的にトランスフォーマーモデルの実行待ち時間を削減するために,量子化認識テンソル圧縮トレーニング手法を提案する。
我々はトランスの埋め込み層と線形層を小さな低ランクテンソルコアに圧縮し、モデルパラメータを著しく削減する。
テンソル圧縮モデルの低精度表現を得るために、学習可能なスケール因子を用いた量子化アウェアトレーニングを用いる。
開発されたアプローチは、エンドツーエンドのトレーニングと蒸留ベースのトレーニングの両方に使用できる。
収束性を向上させるため, 既訓練変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。
パフォーマンスは2つの自然言語理解タスクで実証され、最大63\times$の圧縮率、精度の低下、驚くべき推論とトレーニングのスピードアップが示される。
関連論文リスト
- Exploring Quantization for Efficient Pre-Training of Transformer Language Models [11.696132057489786]
本研究の目的は,変圧器の効率的な事前学習における量子化の影響を検討することである。
重み、アクティベーション、勾配、状態に直線量子化を体系的に適用することにより、トレーニング中のモデル効率、安定性、性能への影響を評価する。
論文 参考訳(メタデータ) (2024-07-16T13:42:09Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models [6.809572275782338]
我々は,変換器モデルによる前方及び後方信号のモーメントを管理する統一信号伝搬理論を開発し,公式を提供する。
我々のフレームワークは、ハイアテンションスコアに関連する、消失/爆発の勾配、ランク崩壊、不安定性を理解し、緩和するために使用することができる。
論文 参考訳(メタデータ) (2024-03-14T17:59:14Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - Weight subcloning: direct initialization of transformers using larger
pretrained ones [42.056148990349094]
本稿では,事前学習されたモデルの知識をより小さな変種に伝達する手法を提案する。
ウェイト・サブクロニングは、より大きな事前訓練モデルからウェイトを初期化することにより、スケールダウン・トランスフォーマーのトレーニングを高速化する。
我々は、次のトークン予測のために設計された画像分類と言語モデルにおいて、視覚変換器の4倍高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2023-12-14T19:08:56Z) - USDC: Unified Static and Dynamic Compression for Visual Transformer [17.10536016262485]
ビジュアルトランスフォーマーは、分類、検出など、ほぼすべての視覚タスクで大きな成功を収めています。
しかし、視覚変換器のモデル複雑さと推論速度は、産業製品への展開を妨げる。
様々なモデル圧縮技術は、モデル性能を維持しながら、視覚変換器を直接より小さく圧縮することに重点を置いているが、圧縮比が大きいと性能が劇的に低下する。
動的ネットワーク技術もいくつか適用されており、入力適応効率のよいサブ構造を得るために動的に圧縮し、圧縮比とモデル性能のトレードオフを改善することができる。
論文 参考訳(メタデータ) (2023-10-17T10:04:47Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Modular Transformers: Compressing Transformers into Modularized Layers
for Flexible Efficient Inference [83.01121484432801]
本稿では,フレキシブルシーケンス・ツー・シーケンス・モデル圧縮のためのモジュール化エンコーダ・デコーダ・フレームワークであるModular Transformersを紹介する。
単一のトレーニングフェーズの後、Modular Transformerは1.1xから6xまでのフレキシブルな圧縮比を、相対的な相対的な性能低下の少ない状態で達成することができる。
論文 参考訳(メタデータ) (2023-06-04T15:26:28Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。