論文の概要: Shortformer: Better Language Modeling using Shorter Inputs
- arxiv url: http://arxiv.org/abs/2012.15832v1
- Date: Thu, 31 Dec 2020 18:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:11:03.479319
- Title: Shortformer: Better Language Modeling using Shorter Inputs
- Title(参考訳): Shortformer: 短い入力を用いたよりよい言語モデリング
- Authors: Ofir Press, Noah A. Smith, Mike Lewis
- Abstract要約: 当初、モデルを短いサブシーケンスでトレーニングした後、長いサブシーケンスに移行する前に、どちらもトレーニング時間を短縮することを示す。
次に, 変圧器における再帰法の効率を改善する方法を示す。
- 参考スコア(独自算出の注目度): 62.51758040848735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the benefits of decreasing the input length of transformers.
First, we show that initially training the model on short subsequences, before
moving on to longer ones, both reduces overall training time and, surprisingly,
gives a large improvement in perplexity. We then show how to improve the
efficiency of recurrence methods in transformers, which let models condition on
previously processed tokens (when generating sequences that are larger than the
maximal length that the transformer can handle at once). Existing methods
require computationally expensive relative position embeddings; we introduce a
simple alternative of adding absolute position embeddings to queries and keys
instead of to word embeddings, which efficiently produces superior results. By
combining these techniques, we increase training speed by 65%, make generation
nine times faster, and substantially improve perplexity on WikiText-103,
without adding any parameters.
- Abstract(参考訳): トランスの入力長を減少させる利点を考察する。
第一に、最初は短いサブシーケンスでモデルをトレーニングし、その後より長いものに移行することで、全体的なトレーニング時間を短縮し、驚くほど、パープレキシティが大幅に向上することを示します。
次に、前処理されたトークン(トランスフォーマーが一度に処理できる最大長よりも大きいシーケンスを生成する場合)をモデル条件とするトランスフォーマーにおける再帰法の効率を改善する方法を示す。
既存の手法では計算コストの高い相対的位置埋め込みが必要であり、単語埋め込みの代わりにクエリやキーに絶対位置埋め込みを追加するという単純な方法を導入する。
これらの手法を組み合わせることで、トレーニング速度を65%向上させ、生成を9倍速くし、パラメータを追加せずにWikiText-103の難易度を大幅に向上する。
関連論文リスト
- TAPIR: Learning Adaptive Revision for Incremental Natural Language
Understanding with a Two-Pass Model [14.846377138993645]
インクリメンタル処理のための最近のニューラルネットワークベースのアプローチは、主にRNNまたはTransformerを使用する。
より長い入力プレフィックスを繰り返し通過する再起動/インクリメンタルインターフェースは、部分的な出力を得るために使用でき、更新する機能を提供する。
本稿では、AdaPtIve Revision(TAPIR)の2パスモデルを提案し、適応的な修正ポリシーを学ぶための漸進的な監視信号を得る方法を提案する。
論文 参考訳(メタデータ) (2023-05-18T09:58:19Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - Towards Incremental Transformers: An Empirical Analysis of Transformer Models for Incremental NLU [19.103130032967663]
インクリメンタル処理により、対話システムは部分的な入力に基づいて応答できる。
最近の作業では、再起動と増分によってトランスフォーマーを漸進的に適用しようと試みている。
このアプローチは計算コストが高く、長いシーケンスに対して効率よくスケールしない。
論文 参考訳(メタデータ) (2021-09-15T15:20:29Z) - Fastformer: Additive Attention Can Be All You Need [51.79399904527525]
本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。
Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。
このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
論文 参考訳(メタデータ) (2021-08-20T09:44:44Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。