論文の概要: Practical Computational Power of Linear Transformers and Their Recurrent
and Self-Referential Extensions
- arxiv url: http://arxiv.org/abs/2310.16076v1
- Date: Tue, 24 Oct 2023 17:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 19:01:30.819448
- Title: Practical Computational Power of Linear Transformers and Their Recurrent
and Self-Referential Extensions
- Title(参考訳): リニア変圧器の実用計算力とその繰り返し・自己参照拡張
- Authors: Kazuki Irie, R\'obert Csord\'as, J\"urgen Schmidhuber
- Abstract要約: 線形変換器(LT)やFWP(Fast Weight Programmers)を線形化した自動回帰変換器について検討する。
LTは固定サイズのRNNライクなシーケンスプロセッサと等価であるという意味で特有であり、今や人気になっている自己アテンションネットワークとしても表現できる。
- 参考スコア(独自算出の注目度): 15.793406740545024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies of the computational power of recurrent neural networks (RNNs)
reveal a hierarchy of RNN architectures, given real-time and finite-precision
assumptions. Here we study auto-regressive Transformers with linearised
attention, a.k.a. linear Transformers (LTs) or Fast Weight Programmers (FWPs).
LTs are special in the sense that they are equivalent to RNN-like sequence
processors with a fixed-size state, while they can also be expressed as the
now-popular self-attention networks. We show that many well-known results for
the standard Transformer directly transfer to LTs/FWPs. Our formal language
recognition experiments demonstrate how recently proposed FWP extensions such
as recurrent FWPs and self-referential weight matrices successfully overcome
certain limitations of the LT, e.g., allowing for generalisation on the parity
problem. Our code is public.
- Abstract(参考訳): 最近のリカレントニューラルネットワーク(RNN)の計算能力の研究は、リアルタイムおよび有限精度の仮定を与えられたRNNアーキテクチャの階層構造を明らかにしている。
本稿では,線形変換器 (LT) やFWP (Fast Weight Programmers) を線形化した自動回帰変換器について検討する。
LTは固定サイズのRNNライクなシーケンスプロセッサと等価であるという意味で特有であり、今や人気になっている自己アテンションネットワークとしても表現できる。
本稿では,標準トランスフォーマーのLT/FWPへの直接転送について述べる。
正規言語認識実験により,fwpや自己回帰重み行列といった最近提案されたfwp拡張が,例えばパリティ問題の一般化を可能にするltの制限を克服することに成功したことを示す。
私たちのコードは公開されています。
関連論文リスト
- Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Learning a Fourier Transform for Linear Relative Positional Encodings in
Transformers [60.58073666177477]
我々はLearner-Transformers(Learner-Transformers)と呼ばれる線形変換器の新しいクラスを提案する。
学習者変換器は、幅広い相対的位置符号化機構(RPE)を組み込む
また、画像分類や3次元分子モデリングといった他のデータモダリティやタスクについても、sを徹底的に検証した。
論文 参考訳(メタデータ) (2023-02-03T18:57:17Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Going Beyond Linear Transformers with Recurrent Fast Weight Programmers [9.216201990315364]
RFWP(Recurrent Fast Weight Programmers)を紹介する。
我々は,2つの合成アルゴリズム,Wikitext-103言語モデル,およびAtari 2600 2Dゲーム環境において,新しいFWP(RFWP)を評価する。
強化学習環境では,アタリゲームにおけるLSTMの大幅な改善が報告されている。
論文 参考訳(メタデータ) (2021-06-11T10:32:11Z) - Transformers are RNNs: Fast Autoregressive Transformers with Linear
Attention [22.228028613802174]
トランスフォーマーは、いくつかのタスクで顕著なパフォーマンスを達成するが、その二次的な複雑さのため、非常に長いシーケンスでは明らかに遅い。
我々は行列積の連想性を利用して複雑さを$mathcalOleft(N2right)$から$mathcalOleft(Nright)$に減らし、$N$はシーケンス長である。
線形変圧器はバニラ変圧器と同等の性能を示し、非常に長いシーケンスの自己回帰予測では最大4000倍高速である。
論文 参考訳(メタデータ) (2020-06-29T17:55:38Z) - The Power of Linear Recurrent Neural Networks [1.124958340749622]
自己回帰線形,すなわち線形活性化リカレントニューラルネットワーク(LRNN)が,任意の時間依存関数f(t)を近似できることを示す。
LRNNは、最小限のユニット数でMSOタスクのこれまでの最先端を上回ります。
論文 参考訳(メタデータ) (2018-02-09T15:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。