論文の概要: Recurrent Memory Transformer
- arxiv url: http://arxiv.org/abs/2207.06881v1
- Date: Thu, 14 Jul 2022 13:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 12:31:27.231935
- Title: Recurrent Memory Transformer
- Title(参考訳): リカレントメモリ変換器
- Authors: Aydar Bulatov, Yuri Kuratov and Mikhail S. Burtsev
- Abstract要約: メモリ拡張セグメントレベルリカレント変圧器(リカレントメモリ変圧器)について検討する。
入力や出力シーケンスに特別なメモリトークンを追加することで、Transformerモデルに変更を加えることなくメモリ機構を実装します。
我々のモデルは、より小さなメモリサイズのための言語モデリングにおけるTransformer-XLと同等に動作し、より長いシーケンス処理を必要とするタスクに対して性能を向上する。
- 参考スコア(独自算出の注目度): 0.3529736140137003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models show their effectiveness across multiple domains and
tasks. The self-attention allows to combine information from all sequence
elements into context-aware representations. However, global and local
information has to be stored mostly in the same element-wise representations.
Moreover, the length of an input sequence is limited by quadratic computational
complexity of self-attention.
In this work, we propose and study a memory-augmented segment-level recurrent
Transformer (Recurrent Memory Transformer). Memory allows to store and process
local and global information as well as to pass information between segments of
the long sequence with the help of recurrence. We implement a memory mechanism
with no changes to Transformer model by adding special memory tokens to the
input or output sequence. Then Transformer is trained to control both memory
operations and sequence representations processing.
Results of experiments show that our model performs on par with the
Transformer-XL on language modeling for smaller memory sizes and outperforms it
for tasks that require longer sequence processing. We show that adding memory
tokens to Tr-XL is able to improve it performance. This makes Recurrent Memory
Transformer a promising architecture for applications that require learning of
long-term dependencies and general purpose in memory processing, such as
algorithmic tasks and reasoning.
- Abstract(参考訳): トランスフォーマーベースのモデルは、複数のドメインやタスクで有効性を示す。
セルフアテンションにより、すべてのシーケンス要素からの情報をコンテキスト認識表現に結合することができる。
しかし、大域的および局所的な情報は、主に同じ要素単位の表現に格納する必要がある。
さらに、入力列の長さは自己アテンションの二次計算複雑性によって制限される。
本研究では,メモリ拡張セグメントレベルリカレントトランス(Recurrent Memory Transformer)を提案する。
メモリは、ローカルおよびグローバル情報を保存および処理し、繰り返しの助けを借りて長いシーケンスのセグメント間で情報を渡すことができる。
入力や出力シーケンスに特別なメモリトークンを追加することで、Transformerモデルに変化のないメモリ機構を実装します。
その後、transformerはメモリ操作とシーケンス表現処理の両方を制御するように訓練される。
実験の結果、より小さなメモリサイズの言語モデリングではtransformer-xlと同等の性能を示し、長いシーケンス処理を必要とするタスクではそれよりも優れていた。
Tr-XLにメモリトークンを追加することで、パフォーマンスが向上することを示す。
これにより、リカレントメモリトランスフォーマーは、長期依存の学習とアルゴリズムタスクや推論のようなメモリ処理の汎用目的を必要とするアプリケーションにとって、有望なアーキテクチャとなる。
関連論文リスト
- Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Scaling Transformer to 1M tokens and beyond with RMT [5.60052250541419]
変圧器によって解ける問題の範囲の広い大きな制限は、入力サイズによる計算複雑性の2次スケーリングである。
本研究では,入力コンテキスト長を線形にスケーリングしながら,事前学習したトランスフォーマーモデルの繰り返しメモリ拡張について検討する。
提案手法は,検索精度を高く保ちつつ,前例のない200万トークンのシーケンスの情報をメモリに格納できることを実証する。
論文 参考訳(メタデータ) (2023-04-19T16:18:54Z) - Token Turing Machines [53.22971546637947]
Token Turing Machines (TTM) はシーケンシャルな自己回帰型トランスフォーマーモデルである。
我々のモデルは、セミナルなニューラルチューリングマシンにインスパイアされ、以前の履歴を要約するトークンの集合からなる外部メモリを持つ。
論文 参考訳(メタデータ) (2022-11-16T18:59:18Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文 参考訳(メタデータ) (2020-06-20T09:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。