論文の概要: Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers
- arxiv url: http://arxiv.org/abs/2109.10686v1
- Date: Wed, 22 Sep 2021 12:29:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 14:01:38.839722
- Title: Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers
- Title(参考訳): スケール効率:事前訓練と微調整トランスからの洞察
- Authors: Yi Tay, Mostafa Dehghani, Jinfeng Rao, William Fedus, Samira Abnar,
Hyung Won Chung, Sharan Narang, Dani Yogatama, Ashish Vaswani, Donald Metzler
- Abstract要約: 本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
- 参考スコア(独自算出の注目度): 57.931830650323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There remain many open questions pertaining to the scaling behaviour of
Transformer architectures. These scaling decisions and findings can be
critical, as training runs often come with an associated computational cost
which have both financial and/or environmental impact. The goal of this paper
is to present scaling insights from pretraining and finetuning Transformers.
While Kaplan et al. presents a comprehensive study of the scaling behaviour of
Transformer language models, the scope is only on the upstream (pretraining)
loss. Therefore, it is still unclear if these set of findings transfer to
downstream task within the context of the pretrain-finetune paradigm. The key
findings of this paper are as follows: (1) we show that aside from only the
model size, model shape matters for downstream fine-tuning, (2) scaling
protocols operate differently at different compute regions, (3) widely adopted
T5-base and T5-large sizes are Pareto-inefficient. To this end, we present
improved scaling protocols whereby our redesigned models achieve similar
downstream fine-tuning quality while having 50\% fewer parameters and training
40\% faster compared to the widely adopted T5-base model. We publicly release
over 100 pretrained checkpoints of different T5 configurations to facilitate
future research and analysis.
- Abstract(参考訳): Transformerアーキテクチャのスケーリング動作に関する多くのオープンな疑問が残っている。
トレーニングの実行には、金融と環境の両方に影響を及ぼす計算コストが伴うことが多いため、これらのスケーリング決定と発見が重要である。
本稿の目的は,事前学習と微調整トランスのスケーリングインサイトを提供することである。
kaplanらはトランスフォーマー言語モデルのスケーリング挙動を包括的に研究しているが、スコープは上流(事前学習)の損失にのみ依存している。
したがって、これらの発見の集合が、プレトレイン-ファインチューンパラダイムの文脈内で下流タスクに遷移するかどうかはまだ不明である。
本稿では,(1) モデルサイズ, 下流の微調整のためのモデル形状, (2) スケーリングプロトコルが異なる計算領域で異なる動作をすること,(3) 広く採用されているT5ベースとT5大サイズがパレート非効率であること,を示す。
この目的のために,我々の再設計したモデルは,パラメータを50%少なくし,広く採用されているT5ベースモデルに比べて40倍速く,下流の微調整品質が向上する。
将来の研究と分析を容易にするため、さまざまなT5構成の事前訓練済みチェックポイントを100以上公開しています。
関連論文リスト
- Unraveling the Mystery of Scaling Laws: Part I [39.967120253159614]
法則のスケーリングは、モデルサイズ、データセットサイズ、トレーニングで使用される計算リソースなどの損失と変数の間のパワー-ルールの相関を示す。
OpenAIのオリジナルのスケーリング法論文は、正確なスケーリング法則を導出するのに必要な詳細を公表していない。
1M60Mのパラメータしか持たないモデルでトレーニングすることで、スケーリング法則式における全ての定数項をステップバイステップで推定する。
論文 参考訳(メタデータ) (2024-03-11T10:05:29Z) - On Robustness of Finetuned Transformer-based NLP Models [11.063628128069736]
CKAとSTIRの2つの指標を用いて、事前訓練された言語モデルと微調整された言語モデル間の変化を特徴付ける。
GPT-2表現はBERTやT5よりも複数の入力摂動に対して堅牢である。
この研究は、人気のあるTransformerベースのモデルの摂動固有の弱点に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-05-23T18:25:18Z) - Model-Generated Pretraining Signals Improves Zero-Shot Generalization of
Text-to-Text Transformers [98.30298332661323]
本稿では,T5などのテキスト変換器のゼロショット一般化におけるモデル生成信号の有効性について検討する。
我々は新しいモデルMETRO-T0を開発し、ELECTRA-Style事前学習戦略を用いて事前訓練を行い、次にNLPタスクの混合を即時微調整する。
その結果,METRO-T0の有効性は,パラメータのよりバランスの取れた寄与と,それらの能力の有効利用に起因していることが判明した。
論文 参考訳(メタデータ) (2023-05-21T21:06:23Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - LongT5: Efficient Text-To-Text Transformer for Long Sequences [8.743996838160825]
我々はLongT5と呼ばれる新しいモデルを提案し、入力長とモデルサイズの両方を同時にスケーリングする効果について検討する。
いくつかの要約タスクでは最先端の結果が得られ、質問応答タスクでは元のT5モデルよりも優れています。
論文 参考訳(メタデータ) (2021-12-15T06:35:29Z) - Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。
ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。
私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文 参考訳(メタデータ) (2021-09-17T17:50:39Z) - Switch Transformers: Scaling to Trillion Parameter Models with Simple
and Efficient Sparsity [35.84448624327473]
MoEルーティングアルゴリズムを簡略化し、通信コストと計算コストを削減して直感的に改善されたモデルを設計する。
我々は、初めて低精度(bfloat16)フォーマットで、大きなスパースモデルを訓練できることを示した。
我々は,t5-base と t5-large に基づいてモデルを設計し,同じ計算資源で事前学習速度を最大7倍向上させる。
論文 参考訳(メタデータ) (2021-01-11T16:11:52Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。