論文の概要: Efficient Transformers: A Survey
- arxiv url: http://arxiv.org/abs/2009.06732v3
- Date: Mon, 14 Mar 2022 10:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 11:14:36.224441
- Title: Efficient Transformers: A Survey
- Title(参考訳): 効率的な変圧器:調査
- Authors: Yi Tay, Mostafa Dehghani, Dara Bahri, Donald Metzler
- Abstract要約: トランスフォーマーモデルアーキテクチャは、言語、ビジョン、強化学習など、さまざまな領域で有効性があるため、近年大きな関心を集めている。
本稿では,最近の「X-former」モデルの大規模かつ思慮深い選択を特徴付ける。
- 参考スコア(独自算出の注目度): 98.23264445730645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer model architectures have garnered immense interest lately due to
their effectiveness across a range of domains like language, vision and
reinforcement learning. In the field of natural language processing for
example, Transformers have become an indispensable staple in the modern deep
learning stack. Recently, a dizzying number of "X-former" models have been
proposed - Reformer, Linformer, Performer, Longformer, to name a few - which
improve upon the original Transformer architecture, many of which make
improvements around computational and memory efficiency. With the aim of
helping the avid researcher navigate this flurry, this paper characterizes a
large and thoughtful selection of recent efficiency-flavored "X-former" models,
providing an organized and comprehensive overview of existing work and models
across multiple domains.
- Abstract(参考訳): トランスフォーマーモデルアーキテクチャは最近、言語や視覚、強化学習など、さまざまなドメインの有効性によって、大きな関心を集めています。
例えば、自然言語処理の分野では、トランスフォーマーは現代のディープラーニングスタックにおいて必須の要素となっている。
近年では、Reformer、Linformer、Performer、Longformerなど多数の"X-former"モデルが提案されている。
本論文は,近年の「X-former(X-former)」モデルの大規模かつ思慮深い選択を特徴とし,複数の領域にわたる既存作業やモデルの概要を整理し,概観する。
関連論文リスト
- Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Hierarchical Transformers Are More Efficient Language Models [19.061388006885686]
トランスフォーマーモデルは、多くのNLPおよびシーケンスモデリングタスクにおいて印象的な結果をもたらす。
注目すべきは、Transformerは長いシーケンスを処理でき、長いコヒーレントな出力を生成することができることだ。
我々は、長いシーケンスを効率的に処理するトランスフォーマーの鍵は、明示的な階層アーキテクチャを持つことにあると仮定する。
論文 参考訳(メタデータ) (2021-10-26T14:00:49Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - A Survey of Transformers [31.701774010750086]
我々は、バニラトランスフォーマーを導入し、その後、X型トランスフォーマーの新しい分類法を提案する。
次に、アーキテクチャ修正、事前学習、アプリケーションという3つの視点から、様々なX-formerを紹介します。
論文 参考訳(メタデータ) (2021-06-08T17:43:08Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Modifying Memories in Transformer Models [71.48657481835767]
本稿では,トランスフォーマーモデルにおいて,特定の事実知識を巧みに修正するタスクを提案する。
このタスクは、古い知識の更新、プライバシ保護、モデルに格納されている意図しないバイアスの排除など、多くのシナリオで有用である。
論文 参考訳(メタデータ) (2020-12-01T09:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。