論文の概要: Transformers are Multi-State RNNs
- arxiv url: http://arxiv.org/abs/2401.06104v1
- Date: Thu, 11 Jan 2024 18:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 13:09:00.279338
- Title: Transformers are Multi-State RNNs
- Title(参考訳): トランスフォーマーはマルチステートRNNである
- Authors: Matanel Oren, Michael Hassid, Yossi Adi, Roy Schwartz
- Abstract要約: 本稿では,デコーダのみの変換器を無限多状態RNNとして概念化できることを示す。
事前トレーニングされたトランスフォーマーは、隠された状態のサイズを固定することで、$textitfinite$ multi-state RNNに変換することができる。
- 参考スコア(独自算出の注目度): 30.464611586963773
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformers are considered conceptually different compared to the previous
generation of state-of-the-art NLP models - recurrent neural networks (RNNs).
In this work, we demonstrate that decoder-only transformers can in fact be
conceptualized as infinite multi-state RNNs - an RNN variant with unlimited
hidden state size. We further show that pretrained transformers can be
converted into $\textit{finite}$ multi-state RNNs by fixing the size of their
hidden state. We observe that several existing transformers cache compression
techniques can be framed as such conversion policies, and introduce a novel
policy, TOVA, which is simpler compared to these policies. Our experiments with
several long range tasks indicate that TOVA outperforms all other baseline
policies, while being nearly on par with the full (infinite) model, and using
in some cases only $\frac{1}{8}$ of the original cache size. Our results
indicate that transformer decoder LLMs often behave in practice as RNNs. They
also lay out the option of mitigating one of their most painful computational
bottlenecks - the size of their cache memory. We publicly release our code at
https://github.com/schwartz-lab-NLP/TOVA.
- Abstract(参考訳): トランスフォーマーは、前世代の最先端nlpモデルであるrecurrent neural networks(rnn)とは概念的に異なると考えられている。
本研究では,デコーダのみの変圧器を無限多状態RNN(無限の隠れ状態サイズを持つRNN)として概念化できることを実証する。
さらに、事前学習されたトランスフォーマーは、隠れた状態のサイズを固定することで、$\textit{finite}$ multi-state rnnに変換できることを示した。
既存のトランスフォーマーキャッシュ圧縮手法のいくつかは、そのような変換ポリシーとしてフレーム化でき、これらのポリシーよりも簡単な新しいポリシーであるtovaを導入する。
当社の実験では、tovaが他のすべてのベースラインポリシーよりも優れており、完全な(無限の)モデルとほぼ同等であり、場合によっては元のキャッシュサイズの$\frac{1}{8}$しか使用していないことを示している。
この結果から, トランスデコーダLLMは, 実際にRNNとして動作することが多かった。
彼らはまた、最も苦しい計算ボトルネックの1つ、すなわちキャッシュメモリのサイズを緩和するオプションをレイアウトした。
コードをhttps://github.com/schwartz-lab-NLP/TOVAで公開しています。
関連論文リスト
- Puppet-CNN: Input-Adaptive Convolutional Neural Networks with Model Compression using Ordinary Differential Equation [5.453850739960517]
我々は2つのモジュールを含む新しいCNNフレームワークを$textitPuppet-CNN$として提案する。
パペットモジュールは、他の作業と同じように入力データを処理するために使用されるCNNモデルである。
人形モジュール内でカーネルパラメータを繰り返し生成することにより、異なる畳み込み層のカーネル間の依存を利用してCNNモデルのサイズを大幅に削減することができる。
論文 参考訳(メタデータ) (2024-11-19T21:44:21Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Efficient k-Nearest-Neighbor Machine Translation with Dynamic Retrieval [49.825549809652436]
$k$NN-MTはドメイン固有の翻訳知識を保持するために外部データストアを構築する。
適応検索(k$NN-MT-AR)は、$lambda$を動的に推定し、$lambda$が固定しきい値以下であれば$k$NN検索をスキップする。
本稿では,バニラ$k$NN-MTを大幅に拡張した動的検索(k$NN-MT-DR)を提案する。
論文 参考訳(メタデータ) (2024-06-10T07:36:55Z) - Unlimiformer: Long-Range Transformers with Unlimited Length Input [67.04942180004805]
Unlimiformerは、既存のトレーニング済みエンコーダ-デコーダ変換器をラップする一般的なアプローチである。
クロスアテンション計算をkNN(k-nearest-neighbor)インデックスにオフロードする。
Unlimiformerは、BookSumデータセットから500kのトークン長の入力を、テスト時に入力トランケーションなしで処理できることを示す。
論文 参考訳(メタデータ) (2023-05-02T17:35:08Z) - What's Hidden in a One-layer Randomly Weighted Transformer? [100.98342094831334]
1層にランダムに重み付けされたニューラルネットワークの中に埋もれており、素晴らしいパフォーマンスを達成することができる。
IWSLT14/WMT14でトレーニングされたTransformerの小型/ベースの性能は98%/92% (34.14/25.24 BLEU) に匹敵する。
論文 参考訳(メタデータ) (2021-09-08T21:22:52Z) - Escaping the Big Data Paradigm with Compact Transformers [7.697698018200631]
適切なサイズとトークン化によって、トランスフォーマは小さなデータセット上で最先端のcnnで頭対頭で実行できることを初めて示す。
本手法はモデルサイズで柔軟であり,0.28Mのパラメータしか持たず,妥当な結果が得られる。
論文 参考訳(メタデータ) (2021-04-12T17:58:56Z) - Masked Contrastive Representation Learning for Reinforcement Learning [202.8261654227565]
コントラスト学習を用いて個々のビデオフレームの原画素から高次特徴を抽出するCURLは,効率的なアルゴリズムである。
本稿では,連続した入力間の相関を考慮に入れたRLのための新しいアルゴリズム,マスク付きコントラスト表現学習を提案する。
DMControlスイートの16ドル環境中14ドル,Atari 2600 Gamesの26ドル環境中21ドル環境中26ドル環境中24ドルで,CURLに対する一貫した改善を実現している。
論文 参考訳(メタデータ) (2020-10-15T02:00:10Z) - Improving Network Slimming with Nonconvex Regularization [8.017631543721684]
畳み込みニューラルネットワーク(CNN)は、様々なコンピュータビジョンタスクの強力なモデルとなるために開発された。
最先端のCNNの多くは直接デプロイすることはできない。
CNNを圧縮する簡単な方法が提案されている。
論文 参考訳(メタデータ) (2020-10-03T01:04:02Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。