論文の概要: Random-LTD: Random and Layerwise Token Dropping Brings Efficient
Training for Large-scale Transformers
- arxiv url: http://arxiv.org/abs/2211.11586v1
- Date: Thu, 17 Nov 2022 23:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:11:37.154937
- Title: Random-LTD: Random and Layerwise Token Dropping Brings Efficient
Training for Large-scale Transformers
- Title(参考訳): ランダム-LTD - 大規模変圧器の効率的なトレーニングを実現するランダム・レイヤワイズトウイング
- Authors: Zhewei Yao, Xiaoxia Wu, Conglong Li, Connor Holmes, Minjia Zhang,
Cheng Li, Yuxiong He
- Abstract要約: 本稿では,トランスモデルのためのランダムかつ階層的なトークンドロップ手法(ランダムLTD)を提案する。
ランダムLTDは、標準的なトレーニングベースラインと同等のスピードアップと精度を達成する。
この結果から,ランダムLTDは理論計算コストを約33.3%削減し,ウォールクロックのトレーニング時間を25.6%削減できることがわかった。
- 参考スコア(独自算出の注目度): 31.021091635737776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale transformer models have become the de-facto architectures for
various machine learning applications, e.g., CV and NLP. However, those large
models also introduce prohibitive training costs. To mitigate this issue, we
propose a novel random and layerwise token dropping method (random-LTD), which
skips the computation of a subset of the input tokens at all middle layers.
Particularly, random-LTD achieves considerable speedups and comparable accuracy
as the standard training baseline. Compared to other token dropping methods,
random-LTD does not require (1) any importance score-based metrics, (2) any
special token treatment (e.g., [CLS]), and (3) many layers in full sequence
length training except the first and the last layers. Besides, a new LayerToken
learning rate schedule is proposed for pretraining problems that resolve the
heavy tuning requirement for our proposed training mechanism. Finally, we
demonstrate that random-LTD can be applied to broader applications, including
GPT and BERT pretraining as well as ViT and GPT finetuning tasks. Our results
show that random-LTD can save about 33.3% theoretical compute cost and 25.6%
wall-clock training time while achieving similar zero-shot evaluations on
GPT-31.3B as compared to baseline.
- Abstract(参考訳): 大規模トランスフォーマーモデルは、CVやNLPなど、さまざまな機械学習アプリケーションのためのデファクトアーキテクチャとなっている。
しかし、これらの大型モデルは、訓練費の制限も導入している。
この問題を軽減するために,全ての中間層における入力トークンのサブセットの計算を省略するランダムかつ層単位でのトークンドロップ手法(ランダムLTD)を提案する。
特にランダムLTDは、標準的なトレーニングベースラインと同等のスピードアップと精度を達成する。
他のトークンドロップ法と比較して、random-ltdは、(1)重要なスコアベースのメトリクス、(2)特別なトークン処理(例えば[cls])、(3)最初のレイヤと最後のレイヤを除いて、完全なシーケンス長トレーニングの多くのレイヤを必要としない。
また,提案する学習機構の重調整条件を解消する事前学習問題に対して,新しい階層化学習率スケジュールを提案する。
最後に, GPT や BERT の事前学習, ViT や GPT の微調整タスクなど,広範囲のアプリケーションにランダムLTD を適用することができることを示す。
この結果から,GPT-31.3Bのゼロショット評価をベースラインと比較すると,ランダムLTDは理論計算コスト約33.3%,ウォールクロックトレーニング時間を25.6%削減できることがわかった。
関連論文リスト
- FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning [30.65315081964461]
プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。
まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。
我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-06T06:46:47Z) - Efficient NLP Model Finetuning via Multistage Data Filtering [11.058786955754004]
ターゲットモデルのトレーニングと合わせて,トレーニングサンプルをストリーミング形式でフィルタすることにしました。
1)後方トレーニングパスをスキップするためのトレーニング損失閾値を自動的に決定し,(2)前方トレーニングパスをスキップするためのメタ予測器を実行する。
本手法では,必要なトレーニング例を最大5.3$times$に,トレーニング時間を最大6.8$times$に短縮する。
論文 参考訳(メタデータ) (2022-07-28T21:43:31Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。