論文の概要: No Train No Gain: Revisiting Efficient Training Algorithms For
Transformer-based Language Models
- arxiv url: http://arxiv.org/abs/2307.06440v3
- Date: Mon, 13 Nov 2023 14:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 21:17:36.720181
- Title: No Train No Gain: Revisiting Efficient Training Algorithms For
Transformer-based Language Models
- Title(参考訳): no train no gain: トランスフォーマーベースの言語モデルのための効率的なトレーニングアルゴリズムの再検討
- Authors: Jean Kaddour, Oscar Key, Piotr Nawrot, Pasquale Minervini, Matt J.
Kusner
- Abstract要約: 本稿では、動的アーキテクチャ(レイヤの積み重ね、ドロップ)、バッチ選択(選択的バックプロップ、ROH損失)、効率的なレイヤ(Lion, Sophia)の3つのカテゴリを再検討する。
トレーニング,検証,ダウンストリームのゲインが,完全に遅延した学習率のベースラインに比べて消失していることが分かりました。
我々は、全ての計算時間を参照システム時間と呼ぶ参照マシンにマッピングすることで、任意の計算でマシンを実行できる評価プロトコルを定義した。
- 参考スコア(独自算出の注目度): 31.080446886440757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The computation necessary for training Transformer-based language models has
skyrocketed in recent years. This trend has motivated research on efficient
training algorithms designed to improve training, validation, and downstream
performance faster than standard training. In this work, we revisit three
categories of such algorithms: dynamic architectures (layer stacking, layer
dropping), batch selection (selective backprop, RHO loss), and efficient
optimizers (Lion, Sophia). When pre-training BERT and T5 with a fixed
computation budget using such methods, we find that their training, validation,
and downstream gains vanish compared to a baseline with a fully-decayed
learning rate. We define an evaluation protocol that enables computation to be
done on arbitrary machines by mapping all computation time to a reference
machine which we call reference system time. We discuss the limitations of our
proposed protocol and release our code to encourage rigorous research in
efficient training procedures: https://github.com/JeanKaddour/NoTrainNoGain.
- Abstract(参考訳): トランスフォーマーベースの言語モデルのトレーニングに必要な計算量は近年急増している。
この傾向は、トレーニング、バリデーション、下流のパフォーマンスを標準トレーニングよりも高速に向上するために設計された効率的なトレーニングアルゴリズムの研究を動機付けている。
本研究では,動的アーキテクチャ (レイヤスタック,レイヤドロップ),バッチ選択 (選択バックプロップ,rho損失),効率的な最適化 (lion,sophia) という3つのカテゴリを再検討する。
このような手法を用いて, BERT と T5 を固定計算予算で事前学習すると, トレーニング, 検証, ダウンストリームのゲインが, 完全に遅延した学習率のベースラインに比べて消失することがわかった。
我々は,すべての計算時間を参照システム時間と呼ぶ参照マシンにマッピングすることにより,任意のマシン上での計算を可能にする評価プロトコルを定義する。
我々は提案するプロトコルの限界について議論し、効率的なトレーニング手順における厳密な研究を促進するためにコードをリリースした。
関連論文リスト
- InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文 参考訳(メタデータ) (2023-06-20T03:03:04Z) - Benchmarking Neural Network Training Algorithms [46.39165332979669]
トレーニングアルゴリズムは、ディープラーニングパイプラインに不可欠な部分です。
コミュニティとして、トレーニングアルゴリズムの改善を確実に特定することはできない。
固定ハードウェア上で実行される複数のワークロードを使用した,新たな,競争力のある,時間と時間のベンチマークを導入する。
論文 参考訳(メタデータ) (2023-06-12T15:21:02Z) - Performance and Energy Consumption of Parallel Machine Learning
Algorithms [0.0]
機械学習モデルは、様々な現実世界のアプリケーションで顕著な成功を収めた。
機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。
トレーニングアルゴリズムの並列化は、トレーニングのプロセスを高速化するための一般的な戦略である。
論文 参考訳(メタデータ) (2023-05-01T13:04:39Z) - Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。
我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文 参考訳(メタデータ) (2022-09-29T08:16:52Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Training Efficiency and Robustness in Deep Learning [2.6451769337566406]
ディープラーニングモデルのトレーニング効率と堅牢性を改善するためのアプローチについて検討する。
より情報的なトレーニングデータに基づく学習の優先順位付けは収束速度を高め、テストデータに対する一般化性能を向上させる。
トレーニングデータのサンプリングに対する冗長性を考慮した修正により、トレーニング速度が向上し、トレーニング信号の多様性を検出する効率的な方法が開発されていることを示す。
論文 参考訳(メタデータ) (2021-12-02T17:11:33Z) - Optimizer Fusion: Efficient Training with Better Locality and
Parallelism [11.656318345362804]
実験の結果,様々な構成で最大20%のトレーニング時間を短縮できることがわかった。
提案手法はアルゴリズムを変更しないため,訓練プロセスの一般的な「プラグイン」技術として利用することができる。
論文 参考訳(メタデータ) (2021-04-01T03:44:13Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - How much progress have we made in neural network training? A New
Evaluation Protocol for Benchmarking Optimizers [86.36020260204302]
本稿では、エンドツーエンドの効率とデータ付加訓練の効率を評価するための新しいベンチマークプロトコルを提案する。
評価プロトコルは, ランダム探索よりも, 人間のチューニング行動とよく一致していることを示すために, 人間の実験を行った。
次に,提案したベンチマークフレームワークをコンピュータビジョン,自然言語処理,強化学習,グラフマイニングなどのタスクに適用する。
論文 参考訳(メタデータ) (2020-10-19T21:46:39Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。