論文の概要: Attention Is Not All You Need Anymore
- arxiv url: http://arxiv.org/abs/2308.07661v1
- Date: Tue, 15 Aug 2023 09:24:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 13:33:13.560757
- Title: Attention Is Not All You Need Anymore
- Title(参考訳): 注意はこれ以上必要なものではない
- Authors: Zhe Chen
- Abstract要約: 実験の結果, 自己保持機構をエクストラクタに置き換えることで, トランスフォーマの性能が向上することがわかった。
提案したExtractorは、計算のクリティカルパスがはるかに短いため、自己アテンションよりも高速に実行される可能性がある。
- 参考スコア(独自算出の注目度): 3.9693969407364427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the popular Transformer architecture has achieved great
success in many application areas, including natural language processing and
computer vision. Many existing works aim to reduce the computational and memory
complexity of the self-attention mechanism in the Transformer by trading off
performance. However, performance is key for the continuing success of the
Transformer. In this paper, a drop-in replacement for the self-attention
mechanism in the Transformer, called the Extractor, is proposed. Experimental
results show that replacing the self-attention mechanism with the Extractor
improves the performance of the Transformer. Furthermore, the proposed
Extractor has the potential to run faster than the self-attention since it has
a much shorter critical path of computation. Additionally, the sequence
prediction problem in the context of text generation is formulated using
variable-length discrete-time Markov chains, and the Transformer is reviewed
based on our understanding.
- Abstract(参考訳): 近年,自然言語処理やコンピュータビジョンなど,多くの応用分野において人気のTransformerアーキテクチャが大きな成功を収めている。
既存の多くの作品は、性能のトレードオフによって変圧器の自己着脱機構の計算とメモリの複雑さを減らすことを目的としている。
しかし、Transformerの継続的な成功の鍵はパフォーマンスにある。
本稿では, 変圧器の自己保持機構であるエクストラクタ(Extractor)をドロップインで置き換える手法を提案する。
実験の結果, 自己着脱機構を抽出器に置き換えることで, 変圧器の性能が向上することがわかった。
さらに提案したExtractorは,計算のクリティカルパスがはるかに短いため,自己注意よりも高速に動作することができる。
さらに,テキスト生成の文脈におけるシーケンス予測問題を可変長離散時間マルコフ連鎖を用いて定式化し,その理解に基づいてトランスフォーマーについて検討する。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Sparse Universal Transformer [64.78045820484299]
Universal Transformer (UT) はTransformerの変種であり、それらの層にまたがるパラメータを共有する。
本稿では,スパース・ミキチャー・オブ・エキスパート(SMoE)と新しいスティック・ブレーキング・ベースの動的停止機構を利用するスパース・ユニバーサル・トランスフォーマー(SUT)を提案する。
論文 参考訳(メタデータ) (2023-10-11T00:38:57Z) - The Inhibitor: ReLU and Addition-Based Attention for Efficient
Transformers [0.0]
我々は、ドット生成物とソフトマックスに基づく注意を、加算とReLU活性化のみを含む別のメカニズムに置き換える。
これは行列乗法でしばしば必要とされる倍精度への拡張をサイドステップとし、コストのかかるソフトマックス評価を避ける。
より効率的な実行を可能にし、リソース制約のあるハードウェアや同型暗号のような代替の算術システム上で、より大きな量子化トランスフォーマーモデルをサポートする。
論文 参考訳(メタデータ) (2023-10-03T13:34:21Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - Transformer with a Mixture of Gaussian Keys [31.91701434633319]
マルチヘッドアテンションは最先端のトランスフォーマーの背後にある原動力である。
Transformer-MGKは、トランスフォーマーの冗長なヘッドを、各ヘッドにキーの混合で置き換える。
従来のトランスフォーマーと比較して、Transformer-MGKはトレーニングと推論を加速し、パラメータが少なく、計算するFLOPも少ない。
論文 参考訳(メタデータ) (2021-10-16T23:43:24Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。