論文の概要: Pay Attention when Required
- arxiv url: http://arxiv.org/abs/2009.04534v3
- Date: Mon, 17 May 2021 04:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 08:47:45.275472
- Title: Pay Attention when Required
- Title(参考訳): 必要な時に注意を払う
- Authors: Swetha Mandava, Szymon Migacz, Alex Fit Florea
- Abstract要約: 自己保持ブロックの63%をフィードフォワードブロックに置き換えることで達成したTransformer-XLよりも35%低い計算時間を必要とする。
結果が text8 と enwiki8 のデータセットと BERT モデルで検証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models consist of interleaved feed-forward blocks - that
capture content meaning, and relatively more expensive self-attention blocks -
that capture context meaning. In this paper, we explored trade-offs and
ordering of the blocks to improve upon the current Transformer architecture and
proposed PAR Transformer. It needs 35% lower compute time than Transformer-XL
achieved by replacing ~63% of the self-attention blocks with feed-forward
blocks, and retains the perplexity on WikiText-103 language modelling
benchmark. We further validated our results on text8 and enwiki8 datasets, as
well as on the BERT model.
- Abstract(参考訳): トランスフォーマーベースのモデルは、コンテンツの意味をキャプチャするインターリーブフィードフォワードブロックと、コンテキストの意味をキャプチャする比較的高価なセルフアテンションブロックで構成される。
本稿では,現在の Transformer アーキテクチャを改善するためのトレードオフとブロックの順序について検討し,PAR Transformer を提案する。
自己アテンションブロックの約63%をフィードフォワードブロックに置き換えることで、transformer-xlよりも計算時間を35%削減でき、wikitext-103言語モデリングベンチマークの複雑度を保っている。
さらに、 text8 と enwiki8 のデータセットと BERT モデルで結果を検証しました。
関連論文リスト
- Tensor Product Attention Is All You Need [54.40495407154611]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
本稿では,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - Efficient Scaling of Diffusion Transformers for Text-to-Image Generation [105.7324182618969]
各種拡散変換器(DiT)のテキスト・画像生成におけるスケーリング特性について,広範かつ厳密なアブレーションにより検討した。
We found that U-ViT, a pure self-attention based DiT model provides a simple design and scales using cross-attention based DiT variants。
論文 参考訳(メタデータ) (2024-12-16T22:59:26Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - Simplifying Transformer Blocks [30.451976405521112]
この作業では、標準のトランスフォーマーブロックをどの程度単純化できるかを問う。
トレーニング速度を損なうことなく、多くのブロックコンポーネントを削除できる修正をモチベーションします。
自己回帰デコーダオンリーモデルとBERTエンコーダオンリーモデルの両方の実験では,更新時間当たりのトレーニング速度と性能を簡易化したトランスフォーマをエミュレートした。
論文 参考訳(メタデータ) (2023-11-03T13:30:52Z) - Enhanced Transformer Architecture for Natural Language Processing [2.6071653283020915]
Transformerは自然言語処理(NLP)分野における最先端モデルである
本稿では,トランスフォーマーの新たな構造を提案し,全層正規化,重み付け残差接続,強化学習を利用した位置符号化,マスク付き自己注意が特徴である。
The proposed Transformer model, called Enhanced Transformer, is confirmeded by the bilingual evaluation understudy (BLEU) score obtained with the Multi30k translation dataset。
論文 参考訳(メタデータ) (2023-10-17T01:59:07Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Block-Skim: Efficient Question Answering for Transformer [25.429122678247452]
本稿では,トランスフォーマーの性能向上と高速化を目的として,高層層で不要なコンテキストをスキップするBlock-Skimを提案する。
さらに,下層の早期に不要な位置に対応する隠蔽状態の訓練を行い,推定時間の大幅な高速化を実現した。
Block-Skimは異なるデータセットでのQAモデルの精度を改善し、BERTベースモデルの3倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2021-12-16T01:45:33Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。