Fugu-MT 論文翻訳(概要): Transformers are Multi-State RNNs

論文の概要: Transformers are Multi-State RNNs

arxiv url: http://arxiv.org/abs/2401.06104v1
Date: Thu, 11 Jan 2024 18:35:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-12 13:09:00.279338
Title: Transformers are Multi-State RNNs
Title（参考訳）: トランスフォーマーはマルチステートRNNである
Authors: Matanel Oren, Michael Hassid, Yossi Adi, Roy Schwartz
Abstract要約: 本稿では,デコーダのみの変換器を無限多状態RNNとして概念化できることを示す。事前トレーニングされたトランスフォーマーは、隠された状態のサイズを固定することで、$textitfinite$ multi-state RNNに変換することができる。
参考スコア（独自算出の注目度）: 30.464611586963773
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Transformers are considered conceptually different compared to the previous generation of state-of-the-art NLP models - recurrent neural networks (RNNs). In this work, we demonstrate that decoder-only transformers can in fact be conceptualized as infinite multi-state RNNs - an RNN variant with unlimited hidden state size. We further show that pretrained transformers can be converted into $\textit{finite}$ multi-state RNNs by fixing the size of their hidden state. We observe that several existing transformers cache compression techniques can be framed as such conversion policies, and introduce a novel policy, TOVA, which is simpler compared to these policies. Our experiments with several long range tasks indicate that TOVA outperforms all other baseline policies, while being nearly on par with the full (infinite) model, and using in some cases only $\frac{1}{8}$ of the original cache size. Our results indicate that transformer decoder LLMs often behave in practice as RNNs. They also lay out the option of mitigating one of their most painful computational bottlenecks - the size of their cache memory. We publicly release our code at https://github.com/schwartz-lab-NLP/TOVA.
Abstract（参考訳）: トランスフォーマーは、前世代の最先端nlpモデルであるrecurrent neural networks(rnn)とは概念的に異なると考えられている。本研究では,デコーダのみの変圧器を無限多状態RNN(無限の隠れ状態サイズを持つRNN)として概念化できることを実証する。さらに、事前学習されたトランスフォーマーは、隠れた状態のサイズを固定することで、$\textit{finite}$ multi-state rnnに変換できることを示した。既存のトランスフォーマーキャッシュ圧縮手法のいくつかは、そのような変換ポリシーとしてフレーム化でき、これらのポリシーよりも簡単な新しいポリシーであるtovaを導入する。当社の実験では、tovaが他のすべてのベースラインポリシーよりも優れており、完全な(無限の)モデルとほぼ同等であり、場合によっては元のキャッシュサイズの$\frac{1}{8}$しか使用していないことを示している。この結果から, トランスデコーダLLMは, 実際にRNNとして動作することが多かった。彼らはまた、最も苦しい計算ボトルネックの1つ、すなわちキャッシュメモリのサイズを緩和するオプションをレイアウトした。コードをhttps://github.com/schwartz-lab-NLP/TOVAで公開しています。

関連論文リスト

Theoretical limitations of multi-layer Transformer [14.63344366356708]
マルチ層デコーダのみの変換器に対して,最初の$textitunconditional$lowboundを証明した。また、ある$textitindistinguishable$$textitde$すべての可能な入力を見つける新しい証明手法も導入します。我々の新しい通信モデルと証明技術は、トランスの計算能力のさらなる理解に役立つと信じている。
論文参考訳（メタデータ） (2024-12-04T02:37:31Z)
Puppet-CNN: Input-Adaptive Convolutional Neural Networks with Model Compression using Ordinary Differential Equation [5.453850739960517]
我々は2つのモジュールを含む新しいCNNフレームワークを$textitPuppet-CNN$として提案する。パペットモジュールは、他の作業と同じように入力データを処理するために使用されるCNNモデルである。人形モジュール内でカーネルパラメータを繰り返し生成することにより、異なる畳み込み層のカーネル間の依存を利用してCNNモデルのサイズを大幅に削減することができる。
論文参考訳（メタデータ） (2024-11-19T21:44:21Z)
On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。 We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文参考訳（メタデータ） (2024-10-29T03:27:56Z)
Efficient k-Nearest-Neighbor Machine Translation with Dynamic Retrieval [49.825549809652436]
$k$NN-MTはドメイン固有の翻訳知識を保持するために外部データストアを構築する。適応検索(k$NN-MT-AR)は、$lambda$を動的に推定し、$lambda$が固定しきい値以下であれば$k$NN検索をスキップする。本稿では,バニラ$k$NN-MTを大幅に拡張した動的検索(k$NN-MT-DR)を提案する。
論文参考訳（メタデータ） (2024-06-10T07:36:55Z)
Unlimiformer: Long-Range Transformers with Unlimited Length Input [67.04942180004805]
Unlimiformerは、既存のトレーニング済みエンコーダ-デコーダ変換器をラップする一般的なアプローチである。クロスアテンション計算をkNN(k-nearest-neighbor)インデックスにオフロードする。 Unlimiformerは、BookSumデータセットから500kのトークン長の入力を、テスト時に入力トランケーションなしで処理できることを示す。
論文参考訳（メタデータ） (2023-05-02T17:35:08Z)
Dynamic Token Normalization Improves Vision Transformer [48.63155906080236]
動的トークン正規化(DTN)と呼ばれる新しい正規化器を提案する。 DTNはトークンをトークン内およびトークン間の両方で正規化することを学ぶ。最小限の余分なパラメータと計算オーバーヘッドでベースラインモデルを上回っている。
論文参考訳（メタデータ） (2021-12-05T17:04:59Z)
What's Hidden in a One-layer Randomly Weighted Transformer? [100.98342094831334]
1層にランダムに重み付けされたニューラルネットワークの中に埋もれており、素晴らしいパフォーマンスを達成することができる。 IWSLT14/WMT14でトレーニングされたTransformerの小型/ベースの性能は98%/92% (34.14/25.24 BLEU) に匹敵する。
論文参考訳（メタデータ） (2021-09-08T21:22:52Z)
Escaping the Big Data Paradigm with Compact Transformers [7.697698018200631]
適切なサイズとトークン化によって、トランスフォーマは小さなデータセット上で最先端のcnnで頭対頭で実行できることを初めて示す。本手法はモデルサイズで柔軟であり,0.28Mのパラメータしか持たず,妥当な結果が得られる。
論文参考訳（メタデータ） (2021-04-12T17:58:56Z)
Masked Contrastive Representation Learning for Reinforcement Learning [202.8261654227565]
コントラスト学習を用いて個々のビデオフレームの原画素から高次特徴を抽出するCURLは,効率的なアルゴリズムである。本稿では,連続した入力間の相関を考慮に入れたRLのための新しいアルゴリズム,マスク付きコントラスト表現学習を提案する。 DMControlスイートの16ドル環境中14ドル,Atari 2600 Gamesの26ドル環境中21ドル環境中26ドル環境中24ドルで,CURLに対する一貫した改善を実現している。
論文参考訳（メタデータ） (2020-10-15T02:00:10Z)
Improving Network Slimming with Nonconvex Regularization [8.017631543721684]
畳み込みニューラルネットワーク(CNN)は、様々なコンピュータビジョンタスクの強力なモデルとなるために開発された。最先端のCNNの多くは直接デプロイすることはできない。 CNNを圧縮する簡単な方法が提案されている。
論文参考訳（メタデータ） (2020-10-03T01:04:02Z)
$O(n)$ Connections are Expressive Enough: Universal Approximability of Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文参考訳（メタデータ） (2020-06-08T18:30:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。