Fugu-MT 論文翻訳(概要): Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

論文の概要: Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

arxiv url: http://arxiv.org/abs/2002.11794v2
Date: Tue, 23 Jun 2020 00:23:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-28 14:08:21.266695
Title: Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers
Title（参考訳）: 電車の大型化と圧縮:変圧器の効率的な訓練と推論のためのモデルサイズ再考
Authors: Zhuohan Li, Eric Wallace, Sheng Shen, Kevin Lin, Kurt Keutzer, Dan Klein, Joseph E. Gonzalez
Abstract要約: 本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
参考スコア（独自算出の注目度）: 94.43313684188819
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Since hardware resources are limited, the objective of training deep learning models is typically to maximize accuracy subject to the time and memory constraints of training and inference. We study the impact of model size in this setting, focusing on Transformer models for NLP tasks that are limited by compute: self-supervised pretraining and high-resource machine translation. We first show that even though smaller Transformer models execute faster per iteration, wider and deeper models converge in significantly fewer steps. Moreover, this acceleration in convergence typically outpaces the additional computational overhead of using larger models. Therefore, the most compute-efficient training strategy is to counterintuitively train extremely large models but stop after a small number of iterations. This leads to an apparent trade-off between the training efficiency of large Transformer models and the inference efficiency of small Transformer models. However, we show that large models are more robust to compression techniques such as quantization and pruning than small models. Consequently, one can get the best of both worlds: heavily compressed, large models achieve higher accuracy than lightly compressed, small models.
Abstract（参考訳）: ハードウェアリソースは限られているため、ディープラーニングモデルをトレーニングする目的は通常、トレーニングと推論の時間とメモリの制約による精度を最大化することである。本研究では,計算によって制限されるNLPタスクのトランスフォーマーモデル(自己教師型事前学習と高リソース機械翻訳)に着目し,モデルサイズの影響について検討する。まず、小さなトランスフォーマーモデルの方がイテレーション毎に高速に実行されるが、より広く、より深いモデルは、はるかに少ないステップで収束することを示す。さらに、収束の加速は、通常、より大きなモデルを使用する際の計算オーバーヘッドを上回る。したがって、最も計算効率の高いトレーニング戦略は、直感的に非常に大きなモデルをトレーニングするが、少数のイテレーションの後に停止することです。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。しかし,大規模モデルは小型モデルよりも量子化やプルーニングといった圧縮技術に頑健であることを示す。重く圧縮された大きなモデルは、軽く圧縮された小さなモデルよりも高い精度を実現します。

関連論文リスト

A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
Model Compression and Efficient Inference for Large Language Models: A Survey [20.199282252344396]
大きな言語モデルは、より小さなモデルに比べて2つの顕著な特徴を持つ。大きなモデルの最も顕著な側面は、モデルの微調整やトレーニングに関連する非常に高いコストである。大規模モデルは、1つのタスクのパフォーマンスよりも、汎用性と一般化を強調する。
論文参考訳（メタデータ） (2024-02-15T06:58:30Z)
Weight subcloning: direct initialization of transformers using larger pretrained ones [42.056148990349094]
本稿では,事前学習されたモデルの知識をより小さな変種に伝達する手法を提案する。ウェイト・サブクロニングは、より大きな事前訓練モデルからウェイトを初期化することにより、スケールダウン・トランスフォーマーのトレーニングを高速化する。我々は、次のトークン予測のために設計された画像分類と言語モデルにおいて、視覚変換器の4倍高速なトレーニングを実現する。
論文参考訳（メタデータ） (2023-12-14T19:08:56Z)
Reusing Pretrained Models by Multi-linear Operators for Efficient Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。 bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文参考訳（メタデータ） (2023-10-16T06:16:47Z)
Quantization-Aware and Tensor-Compressed Training of Transformers for Natural Language Understanding [12.030179065286928]
本稿では,変圧器モデルにおけるモデルサイズ,演算演算,実行遅延を低減するために,量子化対応テンソル圧縮トレーニング手法を提案する。あらかじめ訓練された変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。パフォーマンスは2つの自然言語理解タスクで実証され、最大6,3倍の圧縮率、精度の低下、顕著な推論とトレーニングのスピードアップを示す。
論文参考訳（メタデータ） (2023-06-01T18:32:08Z)
Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文参考訳（メタデータ） (2023-03-02T05:21:18Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
When Ensembling Smaller Models is More Efficient than Single Large Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文参考訳（メタデータ） (2020-05-01T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。