論文の概要: Adding Recurrence to Pretrained Transformers for Improved Efficiency and
Context Size
- arxiv url: http://arxiv.org/abs/2008.07027v1
- Date: Sun, 16 Aug 2020 23:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 11:42:33.787694
- Title: Adding Recurrence to Pretrained Transformers for Improved Efficiency and
Context Size
- Title(参考訳): 効率とコンテクストサイズを改善するための予習変圧器への繰り返し付加
- Authors: Davis Yoshida, Allyson Ettinger, Kevin Gimpel
- Abstract要約: 本稿では,事前学習したトランスフォーマー言語モデルを適用する新しい手法を提案する。
PG-19 と WikiText-103 コーパスの未修正 GPT-2 モデルよりも難易度が高いことがわかった。
- 参考スコア(独自算出の注目度): 41.624797099537375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning a pretrained transformer for a downstream task has become a
standard method in NLP in the last few years. While the results from these
models are impressive, applying them can be extremely computationally
expensive, as is pretraining new models with the latest architectures. We
present a novel method for applying pretrained transformer language models
which lowers their memory requirement both at training and inference time. An
additional benefit is that our method removes the fixed context size constraint
that most transformer models have, allowing for more flexible use. When applied
to the GPT-2 language model, we find that our method attains better perplexity
than an unmodified GPT-2 model on the PG-19 and WikiText-103 corpora, for a
given amount of computation or memory.
- Abstract(参考訳): 下流タスクのための事前訓練された変換器の微調整は、ここ数年でNLPの標準手法となっている。
これらのモデルの結果は印象的だが、最新のアーキテクチャで新しいモデルを事前訓練するのと同様に、それらを適用するのは非常に計算コストがかかる。
本稿では,学習時間と推論時間の両方でメモリ要求を低くする事前学習型トランスフォーマー言語モデルを提案する。
もう1つの利点は、多くのトランスフォーマーモデルが持つ固定されたコンテキストサイズ制約を取り除き、より柔軟な使用を可能にすることである。
GPT-2 言語モデルに適用すると,提案手法は PG-19 や WikiText-103 コーパスの未修正 GPT-2 モデルよりも,所定の計算量やメモリに対して,より複雑度が高いことが分かる。
関連論文リスト
- Making the Most of your Model: Methods for Finetuning and Applying Pretrained Transformers [0.21756081703276003]
この論文は、この目標を前進させるモデルの方法と分析を提供する。
使用するモデルに新たな機能を追加する2つの新しいファインタニング手法を導入する。
モデルライクリフと出力品質のばらつきに関する理論的および実証的な知見を提供する。
論文 参考訳(メタデータ) (2024-08-29T03:50:24Z) - Linearizing Large Language Models [26.94551511277412]
本稿では,既存の大規模事前学習型トランスフォーマーを,控えめな計算予算でリカレントニューラルネットワーク(RNN)にアップトレーニングする方法を提案する。
線形化手法は標準ベンチマーク上での競合性能につながるが,最大線形モデルにおいても,永続的な文脈内学習と長期コンテキストモデリングの欠点を同定する。
論文 参考訳(メタデータ) (2024-05-10T17:59:08Z) - Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。
本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T12:37:25Z) - Trainable Transformer in Transformer [48.754918968374334]
本稿では,Transformer in Transformer(略してTinT)の効率的な構築法を提案する。
TinTは多くの変圧器の変種に対応しており、その設計思想は変圧器内部の単純なモデルの過去のインスタンス化の効率も改善している。
これらの結果から,大規模事前学習言語モデルでは複雑な推論が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:53:39Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Quantization-Aware and Tensor-Compressed Training of Transformers for
Natural Language Understanding [12.030179065286928]
本稿では,変圧器モデルにおけるモデルサイズ,演算演算,実行遅延を低減するために,量子化対応テンソル圧縮トレーニング手法を提案する。
あらかじめ訓練された変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。
パフォーマンスは2つの自然言語理解タスクで実証され、最大6,3倍の圧縮率、精度の低下、顕著な推論とトレーニングのスピードアップを示す。
論文 参考訳(メタデータ) (2023-06-01T18:32:08Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。