論文の概要: A Survey on Efficient Training of Transformers
- arxiv url: http://arxiv.org/abs/2302.01107v1
- Date: Thu, 2 Feb 2023 13:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 13:43:01.523345
- Title: A Survey on Efficient Training of Transformers
- Title(参考訳): 変圧器の効率的な訓練に関する調査研究
- Authors: Bohan Zhuang, Jing Liu, Zizheng Pan, Haoyu He, Yuetian Weng, Chunhua
Shen
- Abstract要約: この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。
トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
- 参考スコア(独自算出の注目度): 72.31868024970674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Transformers have come with a huge requirement on
computing resources, highlighting the importance of developing efficient
training techniques to make Transformer training faster, at lower cost, and to
higher accuracy by the efficient use of computation and memory resources. This
survey provides the first systematic overview of the efficient training of
Transformers, covering the recent progress in acceleration arithmetic and
hardware, with a focus on the former. We analyze and compare methods that save
computation and memory costs for intermediate tensors during training, together
with techniques on hardware/algorithm co-design. We finally discuss challenges
and promising areas for future research.
- Abstract(参考訳): トランスフォーマーの最近の進歩は、コンピュータリソースに対する大きな要求を伴い、トランスフォーマーのトレーニングをより速く、低コストで、計算とメモリリソースの効率的な使用により精度を高めるために効率的なトレーニング技術を開発することの重要性を強調している。
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供し、加速度演算とハードウェアの最近の進歩をカバーし、前者に焦点を当てている。
中間テンソルの計算とメモリコストを節約する手法を,ハードウェア/アルゴリズムの共同設計手法と合わせて分析・比較した。
今後の研究の課題と将来性について論じる。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Early Transformers: A study on Efficient Training of Transformer Models through Early-Bird Lottery Tickets [0.0]
本稿では,トランスフォーマーモデルのトレーニング効率を最適化するための早期バードチケット仮説の適用性について検討する。
初期バードチケットを識別するために,反復的プルーニング,マスク付き距離計算,選択的再訓練を組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2024-05-02T23:03:45Z) - LOTUS: Improving Transformer Efficiency with Sparsity Pruning and Data Lottery Tickets [0.0]
ビジョントランスフォーマーはコンピュータビジョンに革命をもたらしたが、その計算要求はトレーニングとデプロイメントの課題を提示している。
本稿では,データの宝くじ選択と空間プルーニングを利用して,精度を維持しながら視覚変換器のトレーニングを高速化する新しい手法であるLOTUSを紹介する。
論文 参考訳(メタデータ) (2024-05-01T23:30:12Z) - From Coarse to Fine: Efficient Training for Audio Spectrogram
Transformers [16.90294414874585]
粗粒化モデルと変圧器モデルとの結合による音声スペクトログラム変換器の多相学習を提案する。
これらの手法の1つを利用することで、トランスフォーマーモデルは初期段階の低解像度(粗い)データから学習し、その後、カリキュラム学習戦略において高解像度のデータで微調整される。
論文 参考訳(メタデータ) (2024-01-16T14:59:37Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Accelerating Training of Transformer-Based Language Models with
Progressive Layer Dropping [24.547833264405355]
提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。
トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
論文 参考訳(メタデータ) (2020-10-26T06:50:07Z) - Data Movement Is All You Need: A Case Study on Optimizing Transformers [16.62346773613343]
本稿では,トランスにおけるデータ移動をグローバルに最適化するためのレシピを提案する。
データ移動を最大22.91%削減し、最先端のフレームワークよりも1.30倍のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2020-06-30T19:26:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。