論文の概要: Linearizing Transformer with Key-Value Memory Bank
- arxiv url: http://arxiv.org/abs/2203.12644v1
- Date: Wed, 23 Mar 2022 18:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 13:04:06.007246
- Title: Linearizing Transformer with Key-Value Memory Bank
- Title(参考訳): キー値メモリバンク付き線形化トランス
- Authors: Yizhe Zhang, Deng Cai
- Abstract要約: 我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
- 参考スコア(独自算出の注目度): 54.83663647680612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has brought great success to a wide range of natural language
processing tasks. Nevertheless, the computational overhead of the vanilla
transformer scales quadratically with sequence length. Many efforts have been
made to develop more efficient transformer variants. A line of work (e.g.,
Linformer) projects the input sequence into a low-rank space, achieving linear
time complexity. However, Linformer does not suit well for text generation
tasks as the sequence length must be pre-specified. We propose MemSizer, an
approach also projects the source sequence into lower dimension representation
but can take input with dynamic length, with a different perspective of the
attention mechanism. MemSizer not only achieves the same linear time complexity
but also enjoys efficient recurrent-style autoregressive generation, which
yields constant memory complexity and reduced computation at inference. We
demonstrate that MemSizer provides an improved tradeoff between efficiency and
accuracy over the vanilla transformer and other linear variants in language
modeling and machine translation tasks, revealing a viable direction towards
further inference efficiency improvement.
- Abstract(参考訳): Transformerは、幅広い自然言語処理タスクで大きな成功を収めた。
それでも、バニラ変圧器の計算オーバーヘッドは、シーケンス長の2倍にスケールする。
より効率的な変圧器の開発に多くの努力がなされている。
作業行(Linformerなど)は入力シーケンスを低ランク空間に投影し、線形時間複雑性を実現する。
しかしLinformerは、シーケンス長を事前に指定する必要があるため、テキスト生成タスクには適していない。
提案するMemSizerは,ソースシーケンスを低次元表現に投影する手法であるが,注意機構の異なる視点で動的長の入力を行うことができる。
MemSizerは同じ線形時間複雑性を達成できるだけでなく、効率的なリカレントスタイルの自己回帰生成も実現している。
我々は,言語モデリングや機械翻訳タスクにおいて,バニラ変圧器と他の線形変圧器との効率と精度のトレードオフを改良し,さらなる推論効率向上に向けた有効な方向を明らかにした。
関連論文リスト
- Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers [24.109312575970456]
そこで本研究では,オフザシェルフ事前学習型トランスフォーマーにおいて,より長いシーケンス処理を実現するための簡単なフレームワークを提案する。
提案手法では,各時系列入力をチャンクのバッチに分割し,エンコーディングステップ中にインターチャンク情報をアライメントする。
我々は,変圧器のデコーダを環境とみなす効果的な隠れ選択ポリシーを学習する。
論文 参考訳(メタデータ) (2023-08-25T05:52:05Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Scaling Transformer to 1M tokens and beyond with RMT [5.60052250541419]
変圧器によって解ける問題の範囲の広い大きな制限は、入力サイズによる計算複雑性の2次スケーリングである。
本研究では,入力コンテキスト長を線形にスケーリングしながら,事前学習したトランスフォーマーモデルの繰り返しメモリ拡張について検討する。
提案手法は,検索精度を高く保ちつつ,前例のない200万トークンのシーケンスの情報をメモリに格納できることを実証する。
論文 参考訳(メタデータ) (2023-04-19T16:18:54Z) - Recurrent Memory Transformer [0.3529736140137003]
メモリ拡張セグメントレベルリカレント変圧器(リカレントメモリ変圧器)について検討する。
入力や出力シーケンスに特別なメモリトークンを追加することで、Transformerモデルに変更を加えることなくメモリ機構を実装します。
我々のモデルは、より小さなメモリサイズのための言語モデリングにおけるTransformer-XLと同等に動作し、より長いシーケンス処理を必要とするタスクに対して性能を向上する。
論文 参考訳(メタデータ) (2022-07-14T13:00:22Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - TurboTransformers: An Efficient GPU Serving System For Transformer
Models [17.4637724940437]
TurboTransformersシステムは、コンピューティングランタイムとサービスフレームワークで構成されている。
GPUベースのバッチ削減操作に対して,効率的な並列アルゴリズムを提案する。
メモリ割り当てアルゴリズムは可変長入力状況向けに設計されている。
新しいバッチスケジューラを備えたサービスフレームワークは、可変長要求に対して最適なスループットを実現する。
論文 参考訳(メタデータ) (2020-10-09T07:28:38Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。