Fugu-MT 論文翻訳(概要): Linear Transformers Are Secretly Fast Weight Memory Systems

論文の概要: Linear Transformers Are Secretly Fast Weight Memory Systems

arxiv url: http://arxiv.org/abs/2102.11174v1
Date: Mon, 22 Feb 2021 16:51:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-23 22:50:49.384328
Title: Linear Transformers Are Secretly Fast Weight Memory Systems
Title（参考訳）: リニアトランスは超高速な軽量メモリシステム
Authors: Imanol Schlag, Kazuki Irie, J\"urgen Schmidhuber
Abstract要約: 線形化自己保持機構とファストウェイト記憶の90年代前半の形式的等価性を示す。高速重みに関する以前の研究に触発されて、このような振る舞いをもたらす代替ルールに更新ルールを置き換えることを提案する。
参考スコア（独自算出の注目度）: 10.358087436626391
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We show the formal equivalence of linearised self-attention mechanisms and fast weight memories from the early '90s. From this observation we infer a memory c Capacity limitation of recent linearised softmax attention variants. With finite memory, a desirable behaviour of fast weight memory models is to manipulate the contents of memory and dynamically interact with it. Inspired by previous work on fast weights, we propose to replace the update rule by an alternative rule yielding such behaviour. We also propose a new kernel function to linearise attention, balancing simplicity and effectiveness. We conduct experiments on synthetic retrieval problems as well as standard machine translation and language modelling tasks which demonstrate the benefits of our methods.
Abstract（参考訳）: 線形化自己保持機構とファストウェイト記憶の90年代前半の形式的等価性を示す。この観測から、最近の線形化ソフトマックスアテンションのメモリc容量制限を推定する。有限メモリでは、高速重量メモリモデルの望ましい動作は、メモリの内容を制御し、動的にそれと相互作用することです。高速重みに関する以前の研究に触発されて、このような振る舞いをもたらす代替ルールに更新ルールを置き換えることを提案する。また,注意を線形化し,単純さと有効性をバランスさせる新しいカーネル関数を提案する。本手法の利点を実証するために, 標準機械翻訳および言語モデリングタスクとともに, 合成検索問題に関する実験を行う。

関連論文リスト

Lizard: An Efficient Linearization Framework for Large Language Models [100.63879229649581]
我々は,事前学習したトランスフォーマーベース大規模言語モデル(LLM)を,無限コンテキスト生成のための柔軟性のあるサブクワッドアーキテクチャに変換する線形化フレームワークであるLizardを提案する。 Lizardは、出力品質を保ちながらソフトマックスアテンションを正確に近似するサブクワッドアテンションメカニズムを導入することで、この制限に対処する。そこで本研究では,Lizardが従来の線形化手法を著しく上回りながら,標準言語モデリングタスクにおける教師モデルの性能のほぼ無作為な回復を実現していることを示す。
論文参考訳（メタデータ） (2025-07-11T21:19:18Z)
Emergence of Primacy and Recency Effect in Mamba: A Mechanistic Point of View [16.8179962093575]
予備効果と回帰効果を行動ツールとして用いた状態空間言語モデルの記憶について検討し、時間とともに情報がどのように保持され忘れられているかを明らかにする。構造的リコールタスクをMambaアーキテクチャに適用し、入力シーケンスの開始と終了における強い性能を示す、一貫したU字型精度プロファイルを観察する。
論文参考訳（メタデータ） (2025-06-18T06:02:02Z)
Modern Hopfield Networks with Continuous-Time Memories [19.616624959353697]
本稿では,大規模な離散ホップフィールドメモリを小さな連続記憶に圧縮する手法を提案する。作業記憶における連続的資源割り当ての心理学的理論に着想を得て,大規模な離散ホップフィールド記憶を小さな連続記憶に圧縮する手法を提案する。
論文参考訳（メタデータ） (2025-02-14T12:41:05Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
Fine-Grained Gradient Restriction: A Simple Approach for Mitigating Catastrophic Forgetting [41.891312602770746]
Gradient Episodic Memory (GEM) は、過去のトレーニングサンプルのサブセットを利用して、モデルのパラメータの更新方向を制限することでバランスをとる。メモリの強度は、主にGEMの能力を一般化し、それによってより有利なトレードオフをもたらすため、有効であることを示す。
論文参考訳（メタデータ） (2024-10-01T17:03:56Z)
Cottention: Linear Transformers With Cosine Attention [2.762180345826837]
ソフトマックス操作をコサイン類似性に置き換える新しい注意機構であるCottentionを導入する。 Cottentionは、配列長に関してネイティブな線形メモリ複雑性を実現し、ソフトマックスの注意よりも本質的にメモリ効率が良い。
論文参考訳（メタデータ） (2024-09-27T13:38:36Z)
Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文参考訳（メタデータ） (2023-11-14T12:37:25Z)
Vocabulary-level Memory Efficiency for Language Model Fine-tuning [36.1039389951318]
微調整中,語彙のかなりの割合が未使用であることが判明した。本稿では,メモリ使用量を最小限に抑えるため,この発見を利用したシンプルで効果的な手法を提案する。我々の手法は、より効率的な計算資源の利用を可能にしながら、下流のタスク性能に影響を与えない。
論文参考訳（メタデータ） (2023-09-15T19:00:00Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。 LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文参考訳（メタデータ） (2022-04-15T06:11:25Z)
Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文参考訳（メタデータ） (2021-04-14T17:52:38Z)
Learning to Learn Variational Semantic Memory [132.39737669936125]
我々はメタラーニングに変分セマンティックメモリを導入し、数ショットラーニングのための長期的知識を得る。セマンティックメモリはスクラッチから成長し、経験したタスクから情報を吸収することで徐々に統合される。アドレスコンテンツから潜在記憶変数の変動推論としてメモリリコールを定式化する。
論文参考訳（メタデータ） (2020-10-20T15:05:26Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。