論文の概要: Primer: Searching for Efficient Transformers for Language Modeling
- arxiv url: http://arxiv.org/abs/2109.08668v1
- Date: Fri, 17 Sep 2021 17:50:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:53:22.498026
- Title: Primer: Searching for Efficient Transformers for Language Modeling
- Title(参考訳): Primer: 言語モデリングのための効率的なトランスフォーマーの探索
- Authors: David R. So, Wojciech Ma\'nke, Hanxiao Liu, Zihang Dai, Noam Shazeer,
Quoc V. Le
- Abstract要約: 大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。
ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。
私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
- 参考スコア(独自算出の注目度): 79.2677566332444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Transformer models have been central to recent advances in natural
language processing. The training and inference costs of these models, however,
have grown rapidly and become prohibitively expensive. Here we aim to reduce
the costs of Transformers by searching for a more efficient variant. Compared
to previous approaches, our search is performed at a lower level, over the
primitives that define a Transformer TensorFlow program. We identify an
architecture, named Primer, that has a smaller training cost than the original
Transformer and other variants for auto-regressive language modeling. Primer's
improvements can be mostly attributed to two simple modifications: squaring
ReLU activations and adding a depthwise convolution layer after each Q, K, and
V projection in self-attention.
Experiments show Primer's gains over Transformer increase as compute scale
grows and follow a power law with respect to quality at optimal model sizes. We
also verify empirically that Primer can be dropped into different codebases to
significantly speed up training without additional tuning. For example, at a
500M parameter size, Primer improves the original T5 architecture on C4
auto-regressive language modeling, reducing the training cost by 4X.
Furthermore, the reduced training cost means Primer needs much less compute to
reach a target one-shot performance. For instance, in a 1.9B parameter
configuration similar to GPT-3 XL, Primer uses 1/3 of the training compute to
achieve the same one-shot performance as Transformer. We open source our models
and several comparisons in T5 to help with reproducibility.
- Abstract(参考訳): 大規模トランスフォーマーモデルは、近年の自然言語処理の進歩の中心である。
しかし、これらのモデルのトレーニングと推論コストは急速に増加し、違法に高価になっている。
ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。
従来の手法と比較して、我々の検索はTransformer TensorFlowプログラムを定義するプリミティブよりも低いレベルで実行される。
我々は、オリジナルのトランスフォーマーや他の自動回帰言語モデリングの変種よりも少ないトレーニングコストを持つアーキテクチャである primer を特定した。
プライマーの改良は主に、ReLUアクティベーションを近似し、Q、K、Vの各投射に深い畳み込み層を追加するという2つの単純な修正によるものである。
実験では、計算規模が大きくなるにつれて変圧器に対するプライマーの利益が増大し、最適なモデルサイズにおける品質に関してパワー法則に従うことが示されている。
また、Primerを異なるコードベースにドロップして、追加のチューニングなしでトレーニングを大幅にスピードアップできることを実証的に検証しています。
例えば、500Mのパラメータサイズで、PrimerはC4の自動回帰言語モデリングのオリジナルのT5アーキテクチャを改善し、トレーニングコストを4倍に削減した。
さらに、訓練コストの低減は、プライマーが目標とするワンショット性能に到達するために計算量を大幅に削減することを意味する。
例えば、GPT-3 XLと同様の1.9Bパラメータ設定では、Primerはトレーニング計算の1/3を使用してTransformerと同じワンショットのパフォーマンスを達成する。
私たちは、再現性を支援するために、私たちのモデルといくつかの比較をT5でオープンソースにしています。
関連論文リスト
- Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Structured Pruning of Self-Supervised Pre-trained Models for Speech
Recognition and Understanding [43.68557263195205]
自己教師付き音声表現学習(SSL)は、様々な下流タスクで有効であることが示されているが、SSLモデルは通常、大きくて遅い。
このような異種ネットワークを扱うための3つのタスク固有の構造化プルーニング手法を提案する。
LibriSpeech と SLURP の実験により,提案手法は従来の wav2vecbase よりも10% から30% の精度で精度が高く,劣化を伴わずに 40% から 50% の削減が可能であった。
論文 参考訳(メタデータ) (2023-02-27T20:39:54Z) - Language Modeling using LMUs: 10x Better Data Efficiency or Improved
Scaling Compared to Transformers [4.899818550820576]
シーケンス処理に先立って,レジェンダメモリ単位をベースとしたモデルを構築した。
我々の新しいアーキテクチャは10倍少ないトークンでトランスフォーマーと同じ精度を実現している。
論文 参考訳(メタデータ) (2021-10-05T23:20:37Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Switch Transformers: Scaling to Trillion Parameter Models with Simple
and Efficient Sparsity [35.84448624327473]
MoEルーティングアルゴリズムを簡略化し、通信コストと計算コストを削減して直感的に改善されたモデルを設計する。
我々は、初めて低精度(bfloat16)フォーマットで、大きなスパースモデルを訓練できることを示した。
我々は,t5-base と t5-large に基づいてモデルを設計し,同じ計算資源で事前学習速度を最大7倍向上させる。
論文 参考訳(メタデータ) (2021-01-11T16:11:52Z) - Shortformer: Better Language Modeling using Shorter Inputs [62.51758040848735]
当初、モデルを短いサブシーケンスでトレーニングした後、長いサブシーケンスに移行する前に、どちらもトレーニング時間を短縮することを示す。
次に, 変圧器における再帰法の効率を改善する方法を示す。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z) - Adding Recurrence to Pretrained Transformers for Improved Efficiency and
Context Size [41.624797099537375]
本稿では,事前学習したトランスフォーマー言語モデルを適用する新しい手法を提案する。
PG-19 と WikiText-103 コーパスの未修正 GPT-2 モデルよりも難易度が高いことがわかった。
論文 参考訳(メタデータ) (2020-08-16T23:19:30Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。