論文の概要: Shatter: An Efficient Transformer Encoder with Single-Headed
Self-Attention and Relative Sequence Partitioning
- arxiv url: http://arxiv.org/abs/2108.13032v1
- Date: Mon, 30 Aug 2021 07:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 20:22:05.815907
- Title: Shatter: An Efficient Transformer Encoder with Single-Headed
Self-Attention and Relative Sequence Partitioning
- Title(参考訳): Shatter: シングルヘッドの自己アテンションと相対シーケンス分割を備えた効率的なトランスフォーマーエンコーダ
- Authors: Ran Tian, Joshua Maynez, Ankur P. Parikh
- Abstract要約: トランスフォーマーアーキテクチャは、自己注意に基づくもので、BERTのような大規模な事前訓練モデルの基礎となっている。
シーケンス情報をより効率的にエンコードする、別の自己アテンションアーキテクチャShatterを提案する。
我々は、ShatterがBERTよりも優れたパフォーマンスを達成することを示す広範な実験を行う。
- 参考スコア(独自算出の注目度): 14.164984597158501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The highly popular Transformer architecture, based on self-attention, is the
foundation of large pretrained models such as BERT, that have become an
enduring paradigm in NLP. While powerful, the computational resources and time
required to pretrain such models can be prohibitive. In this work, we present
an alternative self-attention architecture, Shatter, that more efficiently
encodes sequence information by softly partitioning the space of relative
positions and applying different value matrices to different parts of the
sequence. This mechanism further allows us to simplify the multi-headed
attention in Transformer to single-headed. We conduct extensive experiments
showing that Shatter achieves better performance than BERT, with pretraining
being faster per step (15% on TPU), converging in fewer steps, and offering
considerable memory savings (>50%). Put together, Shatter can be pretrained on
8 V100 GPUs in 7 days, and match the performance of BERT_Base -- making the
cost of pretraining much more affordable.
- Abstract(参考訳): 自己注意に基づくトランスフォーマーアーキテクチャは、NLPにおいて永続的なパラダイムとなったBERTのような大規模事前訓練モデルの基盤となっている。
強力ではあるが、そのようなモデルを事前訓練するために必要な計算資源と時間は禁じられる。
本研究では、相対位置の空間をソフトに分割し、異なる値行列を配列の異なる部分に適用することにより、より効率的にシーケンス情報を符号化する自己注意型アーキテクチャShatterを提案する。
このメカニズムにより、Transformerのマルチヘッドアテンションを単一ヘッドに単純化することが可能になる。
我々は、ShatterがBERTよりも優れたパフォーマンスを実現し、事前トレーニングが1ステップあたり15%(TPUでは15%)速く、より少ないステップで収束し、かなりのメモリ節約(>50%)を提供することを示す広範な実験を行った。
まとめると、Shatterは7日間で8つのV100 GPU上で事前トレーニングが可能で、BERT_Baseのパフォーマンスに匹敵する。
関連論文リスト
- Symmetric Dot-Product Attention for Efficient Training of BERT Language Models [5.838117137253223]
本稿では,Transformer アーキテクチャによって導入された自己注意機構の代替互換性関数を提案する。
BERTライクなモデルの事前トレーニングに適用すると、この新しい対称アテンション機構はGLUEベンチマークで79.36点に達し、従来の実装では78.74点だった。
論文 参考訳(メタデータ) (2024-06-10T15:24:15Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - A Time Series is Worth 64 Words: Long-term Forecasting with Transformers [4.635547236305835]
本稿では,時系列予測と自己教師型表現学習のためのトランスフォーマーモデルを提案する。
i) 時系列をサブシリーズレベルのパッチに分割し、Transformerへの入力トークンとして機能させる。
PatchTSTは、SOTA Transformerベースのモデルと比較して、長期予測精度を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T05:15:42Z) - Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。
ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。
私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文 参考訳(メタデータ) (2021-09-17T17:50:39Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - FNet: Mixing Tokens with Fourier Transforms [0.578717214982749]
Transformerエンコーダアーキテクチャは、限られた精度コストで大幅に高速化できることを示しています。
入力トークンを「混合」する単純な線形変換に自己着脱部分層を置き換える。
FNetと呼ばれる結果のモデルは、長い入力に対して非常に効率的にスケールします。
論文 参考訳(メタデータ) (2021-05-09T03:32:48Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。