論文の概要: Attention as an RNN
- arxiv url: http://arxiv.org/abs/2405.13956v2
- Date: Tue, 28 May 2024 04:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 11:18:53.462940
- Title: Attention as an RNN
- Title(参考訳): RNNとしての意識
- Authors: Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Mohamed Osama Ahmed, Yoshua Bengio, Greg Mori,
- Abstract要約: 我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 66.5420926480473
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The advent of Transformers marked a significant breakthrough in sequence modelling, providing a highly performant architecture capable of leveraging GPU parallelism. However, Transformers are computationally expensive at inference time, limiting their applications, particularly in low-resource settings (e.g., mobile and embedded devices). Addressing this, we (1) begin by showing that attention can be viewed as a special Recurrent Neural Network (RNN) with the ability to compute its \textit{many-to-one} RNN output efficiently. We then (2) show that popular attention-based models such as Transformers can be viewed as RNN variants. However, unlike traditional RNNs (e.g., LSTMs), these models cannot be updated efficiently with new tokens, an important property in sequence modelling. Tackling this, we (3) introduce a new efficient method of computing attention's \textit{many-to-many} RNN output based on the parallel prefix scan algorithm. Building on the new attention formulation, we (4) introduce \textbf{Aaren}, an attention-based module that can not only (i) be trained in parallel (like Transformers) but also (ii) be updated efficiently with new tokens, requiring only constant memory for inferences (like traditional RNNs). Empirically, we show Aarens achieve comparable performance to Transformers on $38$ datasets spread across four popular sequential problem settings: reinforcement learning, event forecasting, time series classification, and time series forecasting tasks while being more time and memory-efficient.
- Abstract(参考訳): Transformersの出現はシーケンスモデリングの大きなブレークスルーとなり、GPU並列性を活用した高性能なアーキテクチャを提供することができた。
しかし、Transformerは推論時に計算コストが高く、特に低リソース設定(モバイルや組み込みデバイスなど)ではアプリケーションを制限する。
この問題に対処するために、(1) 注意を特別なリカレントニューラルネットワーク(RNN)と見なすことができ、そのRNN出力を効率的に計算できることを示すことから始める。
次に、(2)トランスフォーマーのような注目に基づく一般的なモデルは、RNNの変種と見なせることを示す。
しかし、従来のRNN(例えばLSTM)とは異なり、これらのモデルは新しいトークンで効率的に更新することはできない。
これに対応するために, 並列プレフィックススキャンアルゴリズムを用いて, 注目度を演算する新しい効率的な方法を提案する。
新しいアテンションの定式化に基づいて、(4)アテンションベースのモジュールである \textbf{Aaren} を導入する。
(i)平行して(トランスフォーマーのように)訓練するだけでなく、
(ii) 新しいトークンで効率的に更新され、推論(従来のRNNのように)に一定のメモリしか必要としない。
経験的に、AarensはTransformersに匹敵するパフォーマンスを、強化学習、イベント予測、時系列分類、時系列予測タスクの4つの一般的なシーケンシャルな問題設定に散らばった38ドルのデータセットで実現している。
関連論文リスト
- Were RNNs All We Needed? [53.393497486332]
従来のリカレントニューラルネットワーク(RNN)を10年以上前から再検討しています。
入力から隠れた状態依存を取り除くことで、LSTMやGRUはBPTTを必要とせず、並列で効率的に訓練できることを示す。
論文 参考訳(メタデータ) (2024-10-02T03:06:49Z) - Gated recurrent neural networks discover attention [9.113450161370361]
近年のアーキテクチャ開発により、リカレントニューラルネットワーク(RNN)がトランスフォーマーのパフォーマンスに到達し、さらに超えている。
乗算ゲーティングによるフィードフォワード経路で相互接続された線形リカレント層を備えたRNNが,自己注意を実現する方法を示す。
我々の研究は、ニューラルネットワークにおける乗法的相互作用の重要性を強調し、一部のRNNが予期せずその内部に注意を払っていることを示唆している。
論文 参考訳(メタデータ) (2023-09-04T19:28:54Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks [21.616328837090396]
スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。
イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。
SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
論文 参考訳(メタデータ) (2023-02-27T16:43:04Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Attention is All You Need in Speech Separation [12.57578429586883]
音声分離のための新しいRNNフリートランスフォーマーベースニューラルネットワークを提案する。
提案モデルは標準的なWSJ0-2/3mixデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2020-10-25T16:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。