論文の概要: Neural Attention Memory
- arxiv url: http://arxiv.org/abs/2302.09422v2
- Date: Sat, 14 Oct 2023 04:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 05:58:05.790574
- Title: Neural Attention Memory
- Title(参考訳): ニューラルアテンション記憶
- Authors: Hyoungwook Nam, Seung Byum Seo
- Abstract要約: 本稿では,ニューラルネットワーク,すなわちニューラルアテンションメモリ(NAM)のメモリアーキテクチャとして再発明することで,アテンションメカニズムの新たな視点を提案する。
NAM は可読性と可読性の両方を持つメモリ構造であり、微分可能な線形代数演算によって記述可能である。
NAMの3つのユースケースとして、メモリ拡張ニューラルネットワーク(MANN)、少数ショット学習、効率的な長距離注意(long-range attention)について検討する。
- 参考スコア(独自算出の注目度): 6.345523830122167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel perspective of the attention mechanism by reinventing it
as a memory architecture for neural networks, namely Neural Attention Memory
(NAM). NAM is a memory structure that is both readable and writable via
differentiable linear algebra operations. We explore three use cases of NAM:
memory-augmented neural network (MANN), few-shot learning, and efficient
long-range attention. First, we design two NAM-based MANNs of Long Short-term
Memory (LSAM) and NAM Turing Machine (NAM-TM) that show better computational
powers in algorithmic zero-shot generalization tasks compared to other
baselines such as differentiable neural computer (DNC). Next, we apply NAM to
the N-way K-shot learning task and show that it is more effective at reducing
false positives compared to the baseline cosine classifier. Finally, we
implement an efficient Transformer with NAM and evaluate it with long-range
arena tasks to show that NAM can be an efficient and effective alternative for
scaled dot-product attention.
- Abstract(参考訳): 本稿では,ニューラルネットワーク,すなわちニューラルアテンションメモリ(NAM)のメモリアーキテクチャとして再発明することで,アテンションメカニズムの新たな視点を提案する。
NAM は可読性と可読性の両方を持つメモリ構造である。
namの3つのユースケースについて検討した: メモリ型ニューラルネットワーク(mann)、少数ショット学習、効率的な長距離注意。
まず,長い短期記憶(lsam)とnamチューリングマシン(nam-tm)の2つのnamベースのマントを設計し,アルゴリズムによるゼロショット一般化タスクにおいて,微分可能ニューラルネットワーク(dnc)などの他のベースラインと比較して優れた計算能力を示す。
次に、n-way k-shot学習タスクにnamを適用し、ベースラインコサイン分類器と比較して偽陽性の低減に有効であることを示す。
最後に, NAMを用いた効率的なトランスフォーマーを実装し, 長距離アリーナタスクを用いて評価し, NAMが大規模ドット製品に対する効率的な代替手段であることを示す。
関連論文リスト
- Titans: Learning to Memorize at Test Time [20.12643072017223]
歴史的文脈を記憶するために学習するニューラルな長期記憶モジュールを提案する。
このニューラルメモリは高速な推論を維持しつつ、高速な並列化可能なトレーニングの利点があることが示される。
我々は、Titansと呼ばれる新しいアーキテクチャのファミリーを紹介し、このアーキテクチャにメモリを効果的に組み込む方法に対処する3つのバリエーションを提示します。
論文 参考訳(メタデータ) (2024-12-31T22:32:03Z) - Optimal Gradient Checkpointing for Sparse and Recurrent Architectures using Off-Chip Memory [0.8321953606016751]
本稿では,スパースRNNとスパイキングニューラルネットワークの一般クラスに適したメモリ効率の高い勾配チェックポイント戦略を提案する。
再計算のオーバーヘッドを最小限に抑えながら、ローカルメモリリソースの使用を最適化し、Double Checkpointingが最も効果的な方法であることが判明した。
論文 参考訳(メタデータ) (2024-12-16T14:23:31Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Memory Efficient Neural Processes via Constant Memory Attention Block [55.82269384896986]
CMANP(Constant Memory Attentive Neural Processs)は、NPの変種である。
我々は,CMANPが従来の手法よりもはるかにメモリ効率が良く,NPベンチマークで最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2023-05-23T23:10:19Z) - Nesting Forward Automatic Differentiation for Memory-Efficient Deep
Neural Network Training [23.536294640280087]
本稿では,メモリ効率向上のための要素活性化関数として,ネストフォワード自動微分(フォワードAD)を提案する。
評価の結果,Nested Forward-ADはメモリフットプリントをベースラインモデルよりも1.97倍削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-22T04:48:48Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Universal Hopfield Networks: A General Framework for Single-Shot
Associative Memory Models [41.58529335439799]
本稿では,メモリネットワークの動作を3つの操作のシーケンスとして理解するための一般的なフレームワークを提案する。
これらのメモリモデルはすべて、類似性と分離関数が異なる一般的なフレームワークのインスタンスとして導出します。
論文 参考訳(メタデータ) (2022-02-09T16:48:06Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - Neural Additive Models: Interpretable Machine Learning with Neural Nets [77.66871378302774]
ディープニューラルネットワーク(DNN)は、さまざまなタスクにおいて優れたパフォーマンスを達成した強力なブラックボックス予測器である。
本稿では、DNNの表現性と一般化した加法モデルの固有知性を組み合わせたニューラル付加モデル(NAM)を提案する。
NAMは、ニューラルネットワークの線形結合を学び、それぞれが単一の入力機能に付随する。
論文 参考訳(メタデータ) (2020-04-29T01:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。