論文の概要: Finetuning Pretrained Transformers into RNNs
- arxiv url: http://arxiv.org/abs/2103.13076v1
- Date: Wed, 24 Mar 2021 10:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 18:26:26.687399
- Title: Finetuning Pretrained Transformers into RNNs
- Title(参考訳): rnn変換器の微調整
- Authors: Jungo Kasai, Hao Peng, Yizhe Zhang, Dani Yogatama, Gabriel Ilharco,
Nikolaos Pappas, Yi Mao, Weizhu Chen, Noah A. Smith
- Abstract要約: トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
- 参考スコア(独自算出の注目度): 81.72974646901136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have outperformed recurrent neural networks (RNNs) in natural
language generation. This comes with a significant computational overhead, as
the attention mechanism scales with a quadratic complexity in sequence length.
Efficient transformer variants have received increasing interest from recent
works. Among them, a linear-complexity recurrent variant has proven well suited
for autoregressive generation. It approximates the softmax attention with
randomized or heuristic feature maps, but can be difficult to train or yield
suboptimal accuracy. This work aims to convert a pretrained transformer into
its efficient recurrent counterpart, improving the efficiency while retaining
the accuracy. Specifically, we propose a swap-then-finetune procedure: in an
off-the-shelf pretrained transformer, we replace the softmax attention with its
linear-complexity recurrent alternative and then finetune. With a learned
feature map, our approach provides an improved tradeoff between efficiency and
accuracy over the standard transformer and other recurrent variants. We also
show that the finetuning process needs lower training cost than training these
recurrent variants from scratch. As many recent models for natural language
tasks are increasingly dependent on large-scale pretrained transformers, this
work presents a viable approach to improving inference efficiency without
repeating the expensive pretraining process.
- Abstract(参考訳): トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(rnn)よりも優れています。
これは、アテンション機構がシーケンス長の2次複雑さでスケールするため、計算オーバーヘッドがかなり大きい。
効率的な変圧器は近年の業績から関心を集めている。
それらのうち、線形複雑度リカレント変種は自己回帰生成に適していることが証明されている。
ランダム化またはヒューリスティックな特徴マップでソフトマックスの注意を近似するが、訓練や最適でない精度を得るのが困難である。
本研究の目的は、事前学習した変圧器を効率よく再帰的に変換し、精度を保ちながら効率を向上させることである。
具体的にはswap-then-finetune法を提案する。既成の事前学習トランスフォーマーでは、softmaxの注意をリニア・コンプレクシティー・リカレントに置き換え、その後細粒度に置き換える。
学習した特徴マップにより、標準変圧器と他の繰り返し変動器との効率性と精度のトレードオフが改善される。
また,再帰型をスクラッチからトレーニングするよりも,微調整プロセスに訓練コストの低減が必要であることを示した。
近年の自然言語タスクのモデルの多くが大規模事前学習型トランスフォーマーに依存しているため、この研究は高価な事前学習プロセスを繰り返すことなく推論効率を向上させるための実行可能なアプローチを示す。
関連論文リスト
- SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood
Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。
我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。
New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-09-22T02:14:46Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Momentum Transformer: Closing the Performance Gap Between Self-attention
and Its Linearization [31.28396970291575]
効率の良い変圧器は、変圧器の二次的な複雑さを減らすために提案されているが、精度は著しく低下している。
まず、勾配降下ステップとして注目マップの計算における線形注意と残差接続を解釈する。
次に、これらの成分に運動量を導入し、線形メモリと計算複雑性を維持しつつ、線形変圧器の精度を向上させるために運動量を利用するエンファンモーメント変換器を提案する。
論文 参考訳(メタデータ) (2022-08-01T02:37:49Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - Towards Incremental Transformers: An Empirical Analysis of Transformer Models for Incremental NLU [19.103130032967663]
インクリメンタル処理により、対話システムは部分的な入力に基づいて応答できる。
最近の作業では、再起動と増分によってトランスフォーマーを漸進的に適用しようと試みている。
このアプローチは計算コストが高く、長いシーケンスに対して効率よくスケールしない。
論文 参考訳(メタデータ) (2021-09-15T15:20:29Z) - Shortformer: Better Language Modeling using Shorter Inputs [62.51758040848735]
当初、モデルを短いサブシーケンスでトレーニングした後、長いサブシーケンスに移行する前に、どちらもトレーニング時間を短縮することを示す。
次に, 変圧器における再帰法の効率を改善する方法を示す。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。