論文の概要: Transformers are Multi-State RNNs
- arxiv url: http://arxiv.org/abs/2401.06104v1
- Date: Thu, 11 Jan 2024 18:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 13:09:00.279338
- Title: Transformers are Multi-State RNNs
- Title(参考訳): トランスフォーマーはマルチステートRNNである
- Authors: Matanel Oren, Michael Hassid, Yossi Adi, Roy Schwartz
- Abstract要約: 本稿では,デコーダのみの変換器を無限多状態RNNとして概念化できることを示す。
事前トレーニングされたトランスフォーマーは、隠された状態のサイズを固定することで、$textitfinite$ multi-state RNNに変換することができる。
- 参考スコア(独自算出の注目度): 30.464611586963773
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformers are considered conceptually different compared to the previous
generation of state-of-the-art NLP models - recurrent neural networks (RNNs).
In this work, we demonstrate that decoder-only transformers can in fact be
conceptualized as infinite multi-state RNNs - an RNN variant with unlimited
hidden state size. We further show that pretrained transformers can be
converted into $\textit{finite}$ multi-state RNNs by fixing the size of their
hidden state. We observe that several existing transformers cache compression
techniques can be framed as such conversion policies, and introduce a novel
policy, TOVA, which is simpler compared to these policies. Our experiments with
several long range tasks indicate that TOVA outperforms all other baseline
policies, while being nearly on par with the full (infinite) model, and using
in some cases only $\frac{1}{8}$ of the original cache size. Our results
indicate that transformer decoder LLMs often behave in practice as RNNs. They
also lay out the option of mitigating one of their most painful computational
bottlenecks - the size of their cache memory. We publicly release our code at
https://github.com/schwartz-lab-NLP/TOVA.
- Abstract(参考訳): トランスフォーマーは、前世代の最先端nlpモデルであるrecurrent neural networks(rnn)とは概念的に異なると考えられている。
本研究では,デコーダのみの変圧器を無限多状態RNN(無限の隠れ状態サイズを持つRNN)として概念化できることを実証する。
さらに、事前学習されたトランスフォーマーは、隠れた状態のサイズを固定することで、$\textit{finite}$ multi-state rnnに変換できることを示した。
既存のトランスフォーマーキャッシュ圧縮手法のいくつかは、そのような変換ポリシーとしてフレーム化でき、これらのポリシーよりも簡単な新しいポリシーであるtovaを導入する。
当社の実験では、tovaが他のすべてのベースラインポリシーよりも優れており、完全な(無限の)モデルとほぼ同等であり、場合によっては元のキャッシュサイズの$\frac{1}{8}$しか使用していないことを示している。
この結果から, トランスデコーダLLMは, 実際にRNNとして動作することが多かった。
彼らはまた、最も苦しい計算ボトルネックの1つ、すなわちキャッシュメモリのサイズを緩和するオプションをレイアウトした。
コードをhttps://github.com/schwartz-lab-NLP/TOVAで公開しています。
関連論文リスト
- Practical Computational Power of Linear Transformers and Their Recurrent
and Self-Referential Extensions [15.793406740545024]
線形変換器(LT)やFWP(Fast Weight Programmers)を線形化した自動回帰変換器について検討する。
LTは固定サイズのRNNライクなシーケンスプロセッサと等価であるという意味で特有であり、今や人気になっている自己アテンションネットワークとしても表現できる。
論文 参考訳(メタデータ) (2023-10-24T17:17:01Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Fully Spiking Variational Autoencoder [66.58310094608002]
スパイキングニューラルネットワーク(SNN)は、超高速で超低エネルギー消費のニューロモルフィックデバイス上で動作することができる。
本研究では,SNNを用いた可変オートエンコーダ(VAE)を構築し,画像生成を実現する。
論文 参考訳(メタデータ) (2021-09-26T06:10:14Z) - What's Hidden in a One-layer Randomly Weighted Transformer? [100.98342094831334]
1層にランダムに重み付けされたニューラルネットワークの中に埋もれており、素晴らしいパフォーマンスを達成することができる。
IWSLT14/WMT14でトレーニングされたTransformerの小型/ベースの性能は98%/92% (34.14/25.24 BLEU) に匹敵する。
論文 参考訳(メタデータ) (2021-09-08T21:22:52Z) - Going Beyond Linear Transformers with Recurrent Fast Weight Programmers [9.216201990315364]
RFWP(Recurrent Fast Weight Programmers)を紹介する。
我々は,2つの合成アルゴリズム,Wikitext-103言語モデル,およびAtari 2600 2Dゲーム環境において,新しいFWP(RFWP)を評価する。
強化学習環境では,アタリゲームにおけるLSTMの大幅な改善が報告されている。
論文 参考訳(メタデータ) (2021-06-11T10:32:11Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Escaping the Big Data Paradigm with Compact Transformers [7.697698018200631]
適切なサイズとトークン化によって、トランスフォーマは小さなデータセット上で最先端のcnnで頭対頭で実行できることを初めて示す。
本手法はモデルサイズで柔軟であり,0.28Mのパラメータしか持たず,妥当な結果が得られる。
論文 参考訳(メタデータ) (2021-04-12T17:58:56Z) - Transformer in Transformer [59.066686278998354]
パッチレベルとピクセルレベルの表現の両方をモデル化するトランスフォーマー・iN変換器(TNT)モデルを提案する。
我々のTNTはImageNetで811.3%の精度を達成しており、同様の計算コストでDeiTよりも1.5%高い。
論文 参考訳(メタデータ) (2021-02-27T03:12:16Z) - Neural Architecture Search as Program Transformation Exploration [7.090165638014331]
コンパイラはハードウェア並列性とメモリ階層を利用するためにプログラム変換を適用する。
neural architecture search (nas)技術は、畳み込みのグルーピングやボトルネックのような操作によってネットワークを変異させる。
本研究では,表現能力の概念に依存するプログラム変換として,そのようなニューラルアーキテクチャの操作を表現する。
論文 参考訳(メタデータ) (2021-02-12T16:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。