論文の概要: Attention Is Not All You Need Anymore
- arxiv url: http://arxiv.org/abs/2308.07661v2
- Date: Tue, 19 Sep 2023 13:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 19:10:33.259654
- Title: Attention Is Not All You Need Anymore
- Title(参考訳): 注意はこれ以上必要なものではない
- Authors: Zhe Chen
- Abstract要約: 本稿では,トランスフォーマーの自己保持機構に対するドロップイン置換のファミリを提案する。
実験結果から,自己保持機構をSHEに置き換えることによってトランスフォーマーの性能が向上することが示唆された。
提案されたエクストラクターは、自己保持機構よりも速く走ることができる。
- 参考スコア(独自算出の注目度): 3.9693969407364427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the popular Transformer architecture has achieved great
success in many application areas, including natural language processing and
computer vision. Many existing works aim to reduce the computational and memory
complexity of the self-attention mechanism in the Transformer by trading off
performance. However, performance is key for the continuing success of the
Transformer. In this paper, a family of drop-in replacements for the
self-attention mechanism in the Transformer, called the Extractors, is
proposed. Four types of the Extractors, namely the super high-performance
Extractor (SHE), the higher-performance Extractor (HE), the worthwhile
Extractor (WE), and the minimalist Extractor (ME), are proposed as examples.
Experimental results show that replacing the self-attention mechanism with the
SHE evidently improves the performance of the Transformer, whereas the
simplified versions of the SHE, i.e., the HE, the WE, and the ME, perform close
to or better than the self-attention mechanism with less computational and
memory complexity. Furthermore, the proposed Extractors have the potential or
are able to run faster than the self-attention mechanism since their critical
paths of computation are much shorter. Additionally, the sequence prediction
problem in the context of text generation is formulated using variable-length
discrete-time Markov chains, and the Transformer is reviewed based on our
understanding.
- Abstract(参考訳): 近年,自然言語処理やコンピュータビジョンなど,多くの応用分野において人気のTransformerアーキテクチャが大きな成功を収めている。
既存の多くの作品は、性能のトレードオフによって変圧器の自己着脱機構の計算とメモリの複雑さを減らすことを目的としている。
しかし、Transformerの継続的な成功の鍵はパフォーマンスにある。
本稿では, 変圧器の自己保持機構であるエクストラクタ(Extractors)と呼ばれる, ドロップイン置換器のファミリーを提案する。
超高性能エクストラクタ(SHE)、高性能エクストラクタ(HE)、価値のあるエクストラクタ(WE)、ミニマリストエクストラクタ(ME)の4種類のエクストラクタがその一例として提案されている。
実験の結果,自己保持機構をSHEに置き換えることでトランスフォーマーの性能が向上するのに対して,SHEの簡易版であるHE,WE,MEは計算量やメモリの複雑さを小さくして自己保持機構に近い程度に動作することがわかった。
さらに,提案したエクストラクタは,計算のクリティカルパスがはるかに短いため,自己認識機構よりも高速に動作することができる。
さらに,テキスト生成の文脈におけるシーケンス予測問題を可変長離散時間マルコフ連鎖を用いて定式化し,その理解に基づいてトランスフォーマーについて検討する。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Sparse Universal Transformer [64.78045820484299]
Universal Transformer (UT) はTransformerの変種であり、それらの層にまたがるパラメータを共有する。
本稿では,スパース・ミキチャー・オブ・エキスパート(SMoE)と新しいスティック・ブレーキング・ベースの動的停止機構を利用するスパース・ユニバーサル・トランスフォーマー(SUT)を提案する。
論文 参考訳(メタデータ) (2023-10-11T00:38:57Z) - The Inhibitor: ReLU and Addition-Based Attention for Efficient
Transformers [0.0]
我々は、ドット生成物とソフトマックスに基づく注意を、加算とReLU活性化のみを含む別のメカニズムに置き換える。
これは行列乗法でしばしば必要とされる倍精度への拡張をサイドステップとし、コストのかかるソフトマックス評価を避ける。
より効率的な実行を可能にし、リソース制約のあるハードウェアや同型暗号のような代替の算術システム上で、より大きな量子化トランスフォーマーモデルをサポートする。
論文 参考訳(メタデータ) (2023-10-03T13:34:21Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - Transformer with a Mixture of Gaussian Keys [31.91701434633319]
マルチヘッドアテンションは最先端のトランスフォーマーの背後にある原動力である。
Transformer-MGKは、トランスフォーマーの冗長なヘッドを、各ヘッドにキーの混合で置き換える。
従来のトランスフォーマーと比較して、Transformer-MGKはトレーニングと推論を加速し、パラメータが少なく、計算するFLOPも少ない。
論文 参考訳(メタデータ) (2021-10-16T23:43:24Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。