論文の概要: Memformer: A Memory-Augmented Transformer for Sequence Modeling
- arxiv url: http://arxiv.org/abs/2010.06891v2
- Date: Tue, 12 Apr 2022 20:57:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 13:18:59.364565
- Title: Memformer: A Memory-Augmented Transformer for Sequence Modeling
- Title(参考訳): Memformer:シーケンスモデリングのためのメモリ拡張トランス
- Authors: Qingyang Wu, Zhenzhong Lan, Kun Qian, Jing Gu, Alborz Geramifard, Zhou
Yu
- Abstract要約: 本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
- 参考スコア(独自算出の注目度): 55.780849185884996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have reached remarkable success in sequence modeling. However,
these models have efficiency issues as they need to store all the history
token-level representations as memory. We present Memformer, an efficient
neural network for sequence modeling, that utilizes an external dynamic memory
to encode and retrieve past information. Our model achieves linear time
complexity and constant memory space complexity when processing long sequences.
We also propose a new optimization scheme, memory replay back-propagation
(MRBP), which promotes long-range back-propagation through time with a
significantly reduced memory requirement. Experimental results show that
Memformer has achieved comparable performance compared to the baselines by
using 8.1x less memory space and 3.2x faster on inference. Analysis of the
attention pattern shows that our external memory slots can encode and retain
important information through timesteps.
- Abstract(参考訳): トランスフォーマーはシーケンスモデリングで顕著な成功を収めている。
しかしながら、これらのモデルには、すべての履歴トークンレベルの表現をメモリに格納する必要があるため、効率上の問題がある。
本稿では,外部動的メモリを用いて過去の情報を符号化・検索する,効率的なシーケンスモデリング用ニューラルネットワークであるmemformerを提案する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
また,メモリ要求量を大幅に削減し,長期のバックプロパゲーションを促進する新たな最適化手法であるメモリ再生バックプロパゲーション(MRBP)を提案する。
実験の結果、Memformerはメモリスペースを8.1倍、推論を3.2倍速くすることで、ベースラインと比較して同等のパフォーマンスを達成した。
注意パターンの分析は、外部メモリスロットが時間ステップを通じて重要な情報をエンコードし保持できることを示しています。
関連論文リスト
- Recurrent Memory Decision Transformer [55.41644538483948]
本稿では,リカレントメモリ決定変換器(RMDT)を提案する。
我々は,アタリゲームと MuJoCo 制御問題に関する徹底的な実験を行い,提案モデルが再帰的なメモリ機構を伴わずに,そのモデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Recurrent Memory Transformer [0.3529736140137003]
メモリ拡張セグメントレベルリカレント変圧器(リカレントメモリ変圧器)について検討する。
入力や出力シーケンスに特別なメモリトークンを追加することで、Transformerモデルに変更を加えることなくメモリ機構を実装します。
我々のモデルは、より小さなメモリサイズのための言語モデリングにおけるTransformer-XLと同等に動作し、より長いシーケンス処理を必要とするタスクに対して性能を向上する。
論文 参考訳(メタデータ) (2022-07-14T13:00:22Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Transformer with Memory Replay [13.478839407623978]
変換器は,大規模テキストコーパスの事前学習により,自然言語処理タスクの最先端性能を実現する。
メモリリプレイは、メモリバッファからの保存と再生によって過去の例を記憶し再利用するメカニズムである。
本稿では, メモリリプレイとトランスフォーマを統合したEmphTransformer with Memory Replay (TMR)を提案する。
論文 参考訳(メタデータ) (2022-05-19T21:27:36Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文 参考訳(メタデータ) (2020-06-20T09:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。