論文の概要: Early Transformers: A study on Efficient Training of Transformer Models through Early-Bird Lottery Tickets
- arxiv url: http://arxiv.org/abs/2405.02353v1
- Date: Thu, 2 May 2024 23:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 20:29:40.601360
- Title: Early Transformers: A study on Efficient Training of Transformer Models through Early-Bird Lottery Tickets
- Title(参考訳): 初期変圧器:初期ロテリティケットによる変圧器モデルの効率的な訓練に関する研究
- Authors: Shravan Cheekati,
- Abstract要約: 本稿では,トランスフォーマーモデルのトレーニング効率を最適化するための早期バードチケット仮説の適用性について検討する。
初期バードチケットを識別するために,反復的プルーニング,マスク付き距離計算,選択的再訓練を組み合わせた手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The training of Transformer models has revolutionized natural language processing and computer vision, but it remains a resource-intensive and time-consuming process. This paper investigates the applicability of the early-bird ticket hypothesis to optimize the training efficiency of Transformer models. We propose a methodology that combines iterative pruning, masked distance calculation, and selective retraining to identify early-bird tickets in various Transformer architectures, including ViT, Swin-T, GPT-2, and RoBERTa. Our experimental results demonstrate that early-bird tickets can be consistently found within the first few epochs of training or fine-tuning, enabling significant resource optimization without compromising performance. The pruned models obtained from early-bird tickets achieve comparable or even superior accuracy to their unpruned counterparts while substantially reducing memory usage. Furthermore, our comparative analysis highlights the generalizability of the early-bird ticket phenomenon across different Transformer models and tasks. This research contributes to the development of efficient training strategies for Transformer models, making them more accessible and resource-friendly. By leveraging early-bird tickets, practitioners can accelerate the progress of natural language processing and computer vision applications while reducing the computational burden associated with training Transformer models.
- Abstract(参考訳): Transformerモデルのトレーニングは自然言語処理とコンピュータビジョンに革命をもたらしたが、依然としてリソース集約的で時間を要するプロセスである。
本稿では,トランスフォーマーモデルのトレーニング効率を最適化するための早期バードチケット仮説の適用性について検討する。
本稿では, ViT, Swin-T, GPT-2, RoBERTaなどのトランスフォーマーアーキテクチャにおいて, 初期バードチケットを識別するために, 反復的プルーニング, マスク付き距離計算, 選択的再訓練を組み合わせた手法を提案する。
実験結果から,早期バードチケットはトレーニングや微調整の初期段階で一貫して発見できることが示され,性能を損なうことなく資源最適化が実現された。
アーリーバードチケットから得られたプルーンドモデルは、メモリ使用量を大幅に削減しつつ、未使用のものと同等またはそれ以上の精度を達成する。
さらに,我々の比較分析では,トランスフォーマーモデルとタスク間の早期バードチケット現象の一般化性を強調した。
この研究は、Transformerモデルの効率的なトレーニング戦略の開発に寄与し、よりアクセスしやすく、リソースに優しいものとなる。
早期バードチケットを活用することで,自然言語処理やコンピュータビジョンアプリケーションの進歩を加速し,トランスフォーマーモデルのトレーニングに伴う計算負担を軽減することができる。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - LOTUS: Improving Transformer Efficiency with Sparsity Pruning and Data Lottery Tickets [0.0]
ビジョントランスフォーマーはコンピュータビジョンに革命をもたらしたが、その計算要求はトレーニングとデプロイメントの課題を提示している。
本稿では,データの宝くじ選択と空間プルーニングを利用して,精度を維持しながら視覚変換器のトレーニングを高速化する新しい手法であるLOTUSを紹介する。
論文 参考訳(メタデータ) (2024-05-01T23:30:12Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - A Survey on Efficient Training of Transformers [72.31868024970674]
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。
トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
論文 参考訳(メタデータ) (2023-02-02T13:58:18Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Accelerating Training of Transformer-Based Language Models with
Progressive Layer Dropping [24.547833264405355]
提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。
トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
論文 参考訳(メタデータ) (2020-10-26T06:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。