論文の概要: Practical Computational Power of Linear Transformers and Their Recurrent
and Self-Referential Extensions
- arxiv url: http://arxiv.org/abs/2310.16076v1
- Date: Tue, 24 Oct 2023 17:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 19:01:30.819448
- Title: Practical Computational Power of Linear Transformers and Their Recurrent
and Self-Referential Extensions
- Title(参考訳): リニア変圧器の実用計算力とその繰り返し・自己参照拡張
- Authors: Kazuki Irie, R\'obert Csord\'as, J\"urgen Schmidhuber
- Abstract要約: 線形変換器(LT)やFWP(Fast Weight Programmers)を線形化した自動回帰変換器について検討する。
LTは固定サイズのRNNライクなシーケンスプロセッサと等価であるという意味で特有であり、今や人気になっている自己アテンションネットワークとしても表現できる。
- 参考スコア(独自算出の注目度): 15.793406740545024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies of the computational power of recurrent neural networks (RNNs)
reveal a hierarchy of RNN architectures, given real-time and finite-precision
assumptions. Here we study auto-regressive Transformers with linearised
attention, a.k.a. linear Transformers (LTs) or Fast Weight Programmers (FWPs).
LTs are special in the sense that they are equivalent to RNN-like sequence
processors with a fixed-size state, while they can also be expressed as the
now-popular self-attention networks. We show that many well-known results for
the standard Transformer directly transfer to LTs/FWPs. Our formal language
recognition experiments demonstrate how recently proposed FWP extensions such
as recurrent FWPs and self-referential weight matrices successfully overcome
certain limitations of the LT, e.g., allowing for generalisation on the parity
problem. Our code is public.
- Abstract(参考訳): 最近のリカレントニューラルネットワーク(RNN)の計算能力の研究は、リアルタイムおよび有限精度の仮定を与えられたRNNアーキテクチャの階層構造を明らかにしている。
本稿では,線形変換器 (LT) やFWP (Fast Weight Programmers) を線形化した自動回帰変換器について検討する。
LTは固定サイズのRNNライクなシーケンスプロセッサと等価であるという意味で特有であり、今や人気になっている自己アテンションネットワークとしても表現できる。
本稿では,標準トランスフォーマーのLT/FWPへの直接転送について述べる。
正規言語認識実験により,fwpや自己回帰重み行列といった最近提案されたfwp拡張が,例えばパリティ問題の一般化を可能にするltの制限を克服することに成功したことを示す。
私たちのコードは公開されています。
関連論文リスト
- Bypassing the Exponential Dependency: Looped Transformers Efficiently Learn In-context by Multi-step Gradient Descent [26.764893400499354]
線形ループ変換器は、コンテキスト内学習において、多段階勾配勾配を効率よく実装できることを示す。
この結果から,入力データが一定条件数である場合,$n = O(d)$であれば,線形ループ変換器の誤差は小さくなることがわかった。
論文 参考訳(メタデータ) (2024-10-15T04:44:23Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Going Beyond Linear Transformers with Recurrent Fast Weight Programmers [9.216201990315364]
RFWP(Recurrent Fast Weight Programmers)を紹介する。
我々は,2つの合成アルゴリズム,Wikitext-103言語モデル,およびAtari 2600 2Dゲーム環境において,新しいFWP(RFWP)を評価する。
強化学習環境では,アタリゲームにおけるLSTMの大幅な改善が報告されている。
論文 参考訳(メタデータ) (2021-06-11T10:32:11Z) - The Power of Linear Recurrent Neural Networks [1.124958340749622]
自己回帰線形,すなわち線形活性化リカレントニューラルネットワーク(LRNN)が,任意の時間依存関数f(t)を近似できることを示す。
LRNNは、最小限のユニット数でMSOタスクのこれまでの最先端を上回ります。
論文 参考訳(メタデータ) (2018-02-09T15:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。