論文の概要: Linear Transformers Are Secretly Fast Weight Memory Systems
- arxiv url: http://arxiv.org/abs/2102.11174v1
- Date: Mon, 22 Feb 2021 16:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 22:50:49.384328
- Title: Linear Transformers Are Secretly Fast Weight Memory Systems
- Title(参考訳): リニアトランスは超高速な軽量メモリシステム
- Authors: Imanol Schlag, Kazuki Irie, J\"urgen Schmidhuber
- Abstract要約: 線形化自己保持機構とファストウェイト記憶の90年代前半の形式的等価性を示す。
高速重みに関する以前の研究に触発されて、このような振る舞いをもたらす代替ルールに更新ルールを置き換えることを提案する。
- 参考スコア(独自算出の注目度): 10.358087436626391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show the formal equivalence of linearised self-attention mechanisms and
fast weight memories from the early '90s. From this observation we infer a
memory c Capacity limitation of recent linearised softmax attention variants.
With finite memory, a desirable behaviour of fast weight memory models is to
manipulate the contents of memory and dynamically interact with it. Inspired by
previous work on fast weights, we propose to replace the update rule by an
alternative rule yielding such behaviour. We also propose a new kernel function
to linearise attention, balancing simplicity and effectiveness. We conduct
experiments on synthetic retrieval problems as well as standard machine
translation and language modelling tasks which demonstrate the benefits of our
methods.
- Abstract(参考訳): 線形化自己保持機構とファストウェイト記憶の90年代前半の形式的等価性を示す。
この観測から、最近の線形化ソフトマックスアテンションのメモリc容量制限を推定する。
有限メモリでは、高速重量メモリモデルの望ましい動作は、メモリの内容を制御し、動的にそれと相互作用することです。
高速重みに関する以前の研究に触発されて、このような振る舞いをもたらす代替ルールに更新ルールを置き換えることを提案する。
また,注意を線形化し,単純さと有効性をバランスさせる新しいカーネル関数を提案する。
本手法の利点を実証するために, 標準機械翻訳および言語モデリングタスクとともに, 合成検索問題に関する実験を行う。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Fine-Grained Gradient Restriction: A Simple Approach for Mitigating Catastrophic Forgetting [41.891312602770746]
Gradient Episodic Memory (GEM) は、過去のトレーニングサンプルのサブセットを利用して、モデルのパラメータの更新方向を制限することでバランスをとる。
メモリの強度は、主にGEMの能力を一般化し、それによってより有利なトレードオフをもたらすため、有効であることを示す。
論文 参考訳(メタデータ) (2024-10-01T17:03:56Z) - Cottention: Linear Transformers With Cosine Attention [2.762180345826837]
ソフトマックス操作をコサイン類似性に置き換える新しい注意機構であるCottentionを導入する。
Cottentionは、配列長に関してネイティブな線形メモリ複雑性を実現し、ソフトマックスの注意よりも本質的にメモリ効率が良い。
論文 参考訳(メタデータ) (2024-09-27T13:38:36Z) - Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。
本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T12:37:25Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Learning to Learn Variational Semantic Memory [132.39737669936125]
我々はメタラーニングに変分セマンティックメモリを導入し、数ショットラーニングのための長期的知識を得る。
セマンティックメモリはスクラッチから成長し、経験したタスクから情報を吸収することで徐々に統合される。
アドレスコンテンツから潜在記憶変数の変動推論としてメモリリコールを定式化する。
論文 参考訳(メタデータ) (2020-10-20T15:05:26Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。