論文の概要: Memory Transformer
- arxiv url: http://arxiv.org/abs/2006.11527v2
- Date: Tue, 16 Feb 2021 08:06:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 21:53:56.359964
- Title: Memory Transformer
- Title(参考訳): メモリトランスフォーマ
- Authors: Mikhail S. Burtsev, Yuri Kuratov, Anton Peganov, Grigory V. Sapunov
- Abstract要約: トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
- 参考スコア(独自算出の注目度): 0.31406146587437894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have achieved state-of-the-art results in many
natural language processing tasks. The self-attention architecture allows
transformer to combine information from all elements of a sequence into
context-aware representations. However, information about the context is stored
mostly in the same element-wise representations. This might limit the
processing of properties related to the sequence as a whole more difficult.
Adding trainable memory to selectively store local as well as global
representations of a sequence is a promising direction to improve the
Transformer model. Memory-augmented neural networks (MANNs) extend traditional
neural architectures with general-purpose memory for representations. MANNs
have demonstrated the capability to learn simple algorithms like Copy or
Reverse and can be successfully trained via backpropagation on diverse tasks
from question answering to language modeling outperforming RNNs and LSTMs of
comparable complexity. In this work, we propose and study few extensions of the
Transformer baseline (1) by adding memory tokens to store non-local
representations, (2) creating memory bottleneck for the global information, (3)
controlling memory update with dedicated layer. We evaluate these memory
augmented Transformers and demonstrate that presence of memory positively
correlates with the model performance for machine translation and language
modelling tasks. Augmentation of pre-trained masked language model with memory
tokens shows mixed results for tasks from GLUE benchmark. Visualization of
attention patterns over the memory suggest that it improves the model's ability
to process a global context.
- Abstract(参考訳): トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
セルフアテンションアーキテクチャにより、transformerはシーケンスのすべての要素からの情報をコンテキスト認識表現にまとめることができる。
しかし、コンテキストに関する情報は、主に同じ要素単位の表現に格納される。
これにより、シーケンスに関連するプロパティの処理がより困難になる可能性がある。
ローカルとグローバルなシーケンス表現を選択的に格納するためにトレーニング可能なメモリを追加することは、Transformerモデルを改善するための有望な方向である。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
MANNは、CopyやReverseのような単純なアルゴリズムを学習する能力を示し、質問応答から言語モデリングへのバックプロパゲーションを通じて、同等の複雑さのRNNやLSTMよりも優れた言語モデリングまで、さまざまなタスクをうまくトレーニングすることができる。
本研究では,トランスフォーマーベースライン(1)に非局所的な表現を格納するためのメモリトークンの追加,(2)グローバル情報のためのメモリボトルネックの生成,(3)専用レイヤによるメモリ更新の制御など,いくつかの拡張を提案する。
我々はこれらのメモリ拡張トランスフォーマーを評価し、メモリの存在が機械翻訳や言語モデリングタスクのモデル性能と正の相関を示す。
メモリトークンを用いた事前学習型マスク付き言語モデルの強化は,GLUEベンチマークによるタスクの混合結果を示している。
メモリ上の注意パターンの可視化は、グローバルコンテキストを処理するモデルの能力を改善することを示唆している。
関連論文リスト
- Enhancing Length Extrapolation in Sequential Models with Pointer-Augmented Neural Memory [66.88278207591294]
本稿では,新しいより長いデータ列に対して,ニューラルネットワークによるシンボル処理の理解と適用を支援するために,Pointer-Augmented Neural Memory (PANM)を提案する。
PANMは、新しい物理アドレスとポインタ操作技術を使用して、人間とコンピュータのシンボル処理能力を模倣する外部のニューラルメモリを統合する。
論文 参考訳(メタデータ) (2024-04-18T03:03:46Z) - Cached Transformers: Improving Transformers with Differentiable Memory
Cache [71.28188777209034]
この作業では、Cached Transformerと呼ばれる新しいTransformerモデルが導入されている。
Gated Recurrent Cached (GRC) を使用して、トークンの異なるメモリキャッシュで自己アテンションメカニズムを拡張する。
論文 参考訳(メタデータ) (2023-12-20T03:30:51Z) - Recurrent Memory Transformer [0.3529736140137003]
メモリ拡張セグメントレベルリカレント変圧器(リカレントメモリ変圧器)について検討する。
入力や出力シーケンスに特別なメモリトークンを追加することで、Transformerモデルに変更を加えることなくメモリ機構を実装します。
我々のモデルは、より小さなメモリサイズのための言語モデリングにおけるTransformer-XLと同等に動作し、より長いシーケンス処理を必要とするタスクに対して性能を向上する。
論文 参考訳(メタデータ) (2022-07-14T13:00:22Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Mention Memory: incorporating textual knowledge into Transformers
through entity mention attention [21.361822569279003]
本稿では,大規模テキストコーパスの半パラメトリック表現を,事実知識の源泉としてトランスフォーマーモデルに統合することを提案する。
提案するモデル - TOME は内部メモリ層を通じて情報にアクセスするトランスフォーマーであり、入力通路に記述された各エンティティが参照メモリに付随する。
ウィキペディアが言及した1億5000万のメモリを使った実験では、TOMEはいくつかのオープンドメインの知識集約タスクで高いパフォーマンスを達成している。
論文 参考訳(メタデータ) (2021-10-12T17:19:05Z) - Language Modeling using LMUs: 10x Better Data Efficiency or Improved
Scaling Compared to Transformers [4.899818550820576]
シーケンス処理に先立って,レジェンダメモリ単位をベースとしたモデルを構築した。
我々の新しいアーキテクチャは10倍少ないトークンでトランスフォーマーと同じ精度を実現している。
論文 参考訳(メタデータ) (2021-10-05T23:20:37Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。