論文の概要: Transformers are Multi-State RNNs
- arxiv url: http://arxiv.org/abs/2401.06104v2
- Date: Tue, 18 Jun 2024 09:16:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 04:44:38.222996
- Title: Transformers are Multi-State RNNs
- Title(参考訳): トランスフォーマーはマルチステートRNNである
- Authors: Matanel Oren, Michael Hassid, Nir Yarden, Yossi Adi, Roy Schwartz,
- Abstract要約: 我々はデコーダのみの変換器を非有界マルチステートRNNとして概念化できることを示す。
トランスフォーマーは、隠された状態のサイズを固定することで、$textitbounded$ multi-state RNNに変換することができる。
トレーニング不要な新しい圧縮ポリシー - $textbfT$oken $textbfO$mission $textbfV$ia $textbfA$ttention (TOVA)を導入します。
- 参考スコア(独自算出の注目度): 25.99353771107789
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformers are considered conceptually different from the previous generation of state-of-the-art NLP models - recurrent neural networks (RNNs). In this work, we demonstrate that decoder-only transformers can in fact be conceptualized as unbounded multi-state RNNs - an RNN variant with unlimited hidden state size. We further show that transformers can be converted into $\textit{bounded}$ multi-state RNNs by fixing the size of their hidden state, effectively compressing their key-value cache. We introduce a novel, training-free compression policy - $\textbf{T}$oken $\textbf{O}$mission $\textbf{V}$ia $\textbf{A}$ttention (TOVA). Our experiments with four long range tasks and several LLMs show that TOVA outperforms several baseline compression policies. Particularly, our results are nearly on par with the full model, using in some cases only $\frac{1}{8}$ of the original cache size, which translates to 4.8X higher throughput. Our results shed light on the connection between transformers and RNNs, and help mitigate one of LLMs' most painful computational bottlenecks - the size of their key-value cache. We publicly release our code at https://github.com/schwartz-lab-NLP/TOVA
- Abstract(参考訳): トランスフォーマーは、前世代の最先端のNLPモデルであるリカレントニューラルネットワーク(RNN)とは概念的に異なると考えられている。
本研究では,デコーダのみの変圧器を非有界マルチステート RNN として概念化できることを実証する。
さらに、隠れ状態のサイズを固定し、キー値キャッシュを効果的に圧縮することで、変換器を$\textit{bounded}$ multi-state RNNに変換することができることを示す。
トレーニング不要な新しい圧縮ポリシー - $\textbf{T}$oken $\textbf{O}$mission $\textbf{V}$ia $\textbf{A}$ttention (TOVA)を導入する。
4つの長距離タスクと複数のLLMによる実験により、TOVAはいくつかのベースライン圧縮ポリシーより優れていることが示された。
特に、我々の結果はフルモデルとほぼ同等であり、場合によっては元のキャッシュサイズの$\frac{1}{8}$だけで、スループットは4.8倍になる。
我々の結果は、トランスフォーマーとRNNの接続に光を当て、LLMの最も苦しい計算ボトルネックの1つ、キーバリューキャッシュのサイズを緩和するのに役立ちました。
コードをhttps://github.com/schwartz-lab-NLP/TOVAで公開しています。
関連論文リスト
- Puppet-CNN: Input-Adaptive Convolutional Neural Networks with Model Compression using Ordinary Differential Equation [5.453850739960517]
我々は2つのモジュールを含む新しいCNNフレームワークを$textitPuppet-CNN$として提案する。
パペットモジュールは、他の作業と同じように入力データを処理するために使用されるCNNモデルである。
人形モジュール内でカーネルパラメータを繰り返し生成することにより、異なる畳み込み層のカーネル間の依存を利用してCNNモデルのサイズを大幅に削減することができる。
論文 参考訳(メタデータ) (2024-11-19T21:44:21Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Efficient k-Nearest-Neighbor Machine Translation with Dynamic Retrieval [49.825549809652436]
$k$NN-MTはドメイン固有の翻訳知識を保持するために外部データストアを構築する。
適応検索(k$NN-MT-AR)は、$lambda$を動的に推定し、$lambda$が固定しきい値以下であれば$k$NN検索をスキップする。
本稿では,バニラ$k$NN-MTを大幅に拡張した動的検索(k$NN-MT-DR)を提案する。
論文 参考訳(メタデータ) (2024-06-10T07:36:55Z) - Unlimiformer: Long-Range Transformers with Unlimited Length Input [67.04942180004805]
Unlimiformerは、既存のトレーニング済みエンコーダ-デコーダ変換器をラップする一般的なアプローチである。
クロスアテンション計算をkNN(k-nearest-neighbor)インデックスにオフロードする。
Unlimiformerは、BookSumデータセットから500kのトークン長の入力を、テスト時に入力トランケーションなしで処理できることを示す。
論文 参考訳(メタデータ) (2023-05-02T17:35:08Z) - What's Hidden in a One-layer Randomly Weighted Transformer? [100.98342094831334]
1層にランダムに重み付けされたニューラルネットワークの中に埋もれており、素晴らしいパフォーマンスを達成することができる。
IWSLT14/WMT14でトレーニングされたTransformerの小型/ベースの性能は98%/92% (34.14/25.24 BLEU) に匹敵する。
論文 参考訳(メタデータ) (2021-09-08T21:22:52Z) - Escaping the Big Data Paradigm with Compact Transformers [7.697698018200631]
適切なサイズとトークン化によって、トランスフォーマは小さなデータセット上で最先端のcnnで頭対頭で実行できることを初めて示す。
本手法はモデルサイズで柔軟であり,0.28Mのパラメータしか持たず,妥当な結果が得られる。
論文 参考訳(メタデータ) (2021-04-12T17:58:56Z) - Masked Contrastive Representation Learning for Reinforcement Learning [202.8261654227565]
コントラスト学習を用いて個々のビデオフレームの原画素から高次特徴を抽出するCURLは,効率的なアルゴリズムである。
本稿では,連続した入力間の相関を考慮に入れたRLのための新しいアルゴリズム,マスク付きコントラスト表現学習を提案する。
DMControlスイートの16ドル環境中14ドル,Atari 2600 Gamesの26ドル環境中21ドル環境中26ドル環境中24ドルで,CURLに対する一貫した改善を実現している。
論文 参考訳(メタデータ) (2020-10-15T02:00:10Z) - Improving Network Slimming with Nonconvex Regularization [8.017631543721684]
畳み込みニューラルネットワーク(CNN)は、様々なコンピュータビジョンタスクの強力なモデルとなるために開発された。
最先端のCNNの多くは直接デプロイすることはできない。
CNNを圧縮する簡単な方法が提案されている。
論文 参考訳(メタデータ) (2020-10-03T01:04:02Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。