論文の概要: LazyFormer: Self Attention with Lazy Update
- arxiv url: http://arxiv.org/abs/2102.12702v1
- Date: Thu, 25 Feb 2021 06:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 17:10:15.187492
- Title: LazyFormer: Self Attention with Lazy Update
- Title(参考訳): LazyFormer: Lazy Updateによる自己注意
- Authors: Chengxuan Ying, Guolin Ke, Di He, Tie-Yan Liu
- Abstract要約: 自己注意分布を頻繁に計算するemphLazyFormerを提案する。
LazyFormerは複数の遅延ブロックで構成され、それぞれが複数のTransformerレイヤを含む。
各遅延ブロックでは、自己アテンション分布は第1層で1回のみ計算され、その後すべての上層で再利用される。
- 参考スコア(独自算出の注目度): 76.21862131380907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving the efficiency of Transformer-based language pre-training is an
important task in NLP, especially for the self-attention module, which is
computationally expensive. In this paper, we propose a simple but effective
solution, called \emph{LazyFormer}, which computes the self-attention
distribution infrequently. LazyFormer composes of multiple lazy blocks, each of
which contains multiple Transformer layers. In each lazy block, the
self-attention distribution is only computed once in the first layer and then
is reused in all upper layers. In this way, the cost of computation could be
largely saved. We also provide several training tricks for LazyFormer.
Extensive experiments demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): トランスフォーマーベースの言語事前学習の効率性の向上は、特に計算コストのかかる自己保持モジュールにおいて、NLPにおいて重要な課題である。
本稿では, 自己注意分布を頻繁に計算する, 単純で効果的な解法である \emph{LazyFormer} を提案する。
LazyFormerは複数の遅延ブロックで構成され、それぞれが複数のTransformerレイヤを含む。
各遅延ブロックでは、自己アテンション分布は第1層で1回のみ計算され、その後すべての上層で再利用される。
このように、計算のコストは大幅に節約できます。
LazyFormerのトレーニングトリックもいくつか提供しています。
提案手法の有効性を広範な実験で実証した。
関連論文リスト
- Eigenpruning: an Interpretability-Inspired PEFT Method [26.54666928825269]
固有プルーニング(eigenpruning)は,LLMから特異値を取り除き,特定のタスクの性能を向上させる手法である。
我々のテストでは、プルーンドモデルは元のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2024-04-04T01:42:28Z) - Efficient Finite Initialization for Tensorized Neural Networks [41.94295877935867]
本稿では,行列のパラメータの爆発を回避する手法として,テンソル化ニューラルネットワークの層の初期化手法を提案する。
i3BQuantumリポジトリのJupyter Notebookで利用可能な任意のレイヤ上で実行するPython関数を作成します。
論文 参考訳(メタデータ) (2023-09-11T08:05:09Z) - Fast Training of NMT Model with Data Sorting [0.0]
Transformerモデルはニューラルマシン翻訳などの自然言語処理タスクに革命をもたらした。
改善の潜在的領域の1つは、Transformerが計算した空のトークンの研究に対処し、後に破棄することである。
本稿では,翻訳前の文長に基づいて文対をソートするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-16T05:48:50Z) - Training Data is More Valuable than You Think: A Simple and Effective
Method by Retrieving from Training Data [82.92758444543689]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。
意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。
実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-03-16T17:37:27Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。