論文の概要: Going Beyond Linear Transformers with Recurrent Fast Weight Programmers
- arxiv url: http://arxiv.org/abs/2106.06295v1
- Date: Fri, 11 Jun 2021 10:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 21:20:16.510111
- Title: Going Beyond Linear Transformers with Recurrent Fast Weight Programmers
- Title(参考訳): 繰り返しの高速重みプログラムによる線形変換器を越える
- Authors: Kazuki Irie, Imanol Schlag, R\'obert Csord\'as, J\"urgen Schmidhuber
- Abstract要約: RFWP(Recurrent Fast Weight Programmers)を紹介する。
我々は,2つの合成アルゴリズム,Wikitext-103言語モデル,およびAtari 2600 2Dゲーム環境において,新しいFWP(RFWP)を評価する。
強化学習環境では,アタリゲームにおけるLSTMの大幅な改善が報告されている。
- 参考スコア(独自算出の注目度): 9.216201990315364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers with linearised attention ("linear Transformers") have
demonstrated the practical scalability and effectiveness of outer product-based
Fast Weight Programmers (FWPs) from the '90s. However, the original FWP
formulation is more general than the one of linear Transformers: a slow neural
network (NN) continually reprograms the weights of a fast NN with arbitrary NN
architectures. In existing linear Transformers, both NNs are feedforward and
consist of a single layer. Here we explore new variations by adding recurrence
to the slow and fast nets. We evaluate our novel recurrent FWPs (RFWPs) on two
synthetic algorithmic tasks (code execution and sequential ListOps),
Wikitext-103 language models, and on the Atari 2600 2D game environment. Our
models exhibit properties of Transformers and RNNs. In the reinforcement
learning setting, we report large improvements over LSTM in several Atari
games. Our code is public.
- Abstract(参考訳): 線形に注意を向けた変換器(線形変換器)は,90年代以降,外部製品ベースのFWP(Fast Weight Programmers)の実用的スケーラビリティと有効性を示した。
しかしながら、元のFWPの定式化は線形トランスフォーマーよりも一般的である: 遅いニューラルネットワーク(NN)は、任意のNNアーキテクチャで高速NNの重みを継続的にプログラムする。
既存の線形トランスフォーマーでは、両方のnnはフィードフォワードであり、単一の層で構成されている。
ここでは、遅くて速いネットに再発を加えることで、新しいバリエーションを探求する。
我々は2つの合成アルゴリズムタスク(コード実行とシーケンシャルリストOps)、Wikitext-103言語モデル、およびAtari 2600 2Dゲーム環境において、新しいFWP(RFWP)を評価する。
我々のモデルはトランスフォーマーとRNNの特性を示す。
強化学習環境では,アタリゲームにおけるLSTMの大幅な改善が報告されている。
私たちのコードは公開されています。
関連論文リスト
- Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Practical Computational Power of Linear Transformers and Their Recurrent
and Self-Referential Extensions [15.793406740545024]
線形変換器(LT)やFWP(Fast Weight Programmers)を線形化した自動回帰変換器について検討する。
LTは固定サイズのRNNライクなシーケンスプロセッサと等価であるという意味で特有であり、今や人気になっている自己アテンションネットワークとしても表現できる。
論文 参考訳(メタデータ) (2023-10-24T17:17:01Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - B-cos Networks: Alignment is All We Need for Interpretability [136.27303006772294]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
B-コス変換は、完全なモデル計算を忠実に要約する単一の線形変換を誘導する。
VGGs、ResNets、InceptionNets、DenseNetsといった一般的なモデルに簡単に統合できることを示します。
論文 参考訳(メタデータ) (2022-05-20T16:03:29Z) - Are Transformers More Robust? Towards Exact Robustness Verification for
Transformers [3.2259574483835673]
本稿では,トランスフォーマーのロバスト性問題について検討する。
具体的には,Sparsemaxベースのトランスフォーマーに着目し,その最大ロバスト性をMIQCP(Mixed Quadratically Constrained Programming)問題に還元する。
次に、Sparsemaxベースのトランスフォーマーのロバスト性を従来のMLP(Multi-Layer-Perceptron)NNと比較するために、Land Departureを用いて実験を行った。
論文 参考訳(メタデータ) (2022-02-08T15:27:33Z) - FNet: Mixing Tokens with Fourier Transforms [0.578717214982749]
Transformerエンコーダアーキテクチャは、限られた精度コストで大幅に高速化できることを示しています。
入力トークンを「混合」する単純な線形変換に自己着脱部分層を置き換える。
FNetと呼ばれる結果のモデルは、長い入力に対して非常に効率的にスケールします。
論文 参考訳(メタデータ) (2021-05-09T03:32:48Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Transformers are RNNs: Fast Autoregressive Transformers with Linear
Attention [22.228028613802174]
トランスフォーマーは、いくつかのタスクで顕著なパフォーマンスを達成するが、その二次的な複雑さのため、非常に長いシーケンスでは明らかに遅い。
我々は行列積の連想性を利用して複雑さを$mathcalOleft(N2right)$から$mathcalOleft(Nright)$に減らし、$N$はシーケンス長である。
線形変圧器はバニラ変圧器と同等の性能を示し、非常に長いシーケンスの自己回帰予測では最大4000倍高速である。
論文 参考訳(メタデータ) (2020-06-29T17:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。