論文の概要: Enhancing Length Extrapolation in Sequential Models with Pointer-Augmented Neural Memory
- arxiv url: http://arxiv.org/abs/2404.11870v1
- Date: Thu, 18 Apr 2024 03:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 19:41:09.847879
- Title: Enhancing Length Extrapolation in Sequential Models with Pointer-Augmented Neural Memory
- Title(参考訳): ポインタ強化ニューラルメモリを用いた逐次モデルにおける長さ外挿の強化
- Authors: Hung Le, Dung Nguyen, Kien Do, Svetha Venkatesh, Truyen Tran,
- Abstract要約: 本稿では,新しいより長いデータ列に対して,ニューラルネットワークによるシンボル処理の理解と適用を支援するために,Pointer-Augmented Neural Memory (PANM)を提案する。
PANMは、新しい物理アドレスとポインタ操作技術を使用して、人間とコンピュータのシンボル処理能力を模倣する外部のニューラルメモリを統合する。
- 参考スコア(独自算出の注目度): 66.88278207591294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Pointer-Augmented Neural Memory (PANM) to help neural networks understand and apply symbol processing to new, longer sequences of data. PANM integrates an external neural memory that uses novel physical addresses and pointer manipulation techniques to mimic human and computer symbol processing abilities. PANM facilitates pointer assignment, dereference, and arithmetic by explicitly using physical pointers to access memory content. Remarkably, it can learn to perform these operations through end-to-end training on sequence data, powering various sequential models. Our experiments demonstrate PANM's exceptional length extrapolating capabilities and improved performance in tasks that require symbol processing, such as algorithmic reasoning and Dyck language recognition. PANM helps Transformer achieve up to 100% generalization accuracy in compositional learning tasks and significantly better results in mathematical reasoning, question answering and machine translation tasks.
- Abstract(参考訳): 本稿では,新しいより長いデータ列に対して,ニューラルネットワークによるシンボル処理の理解と適用を支援するために,Pointer-Augmented Neural Memory (PANM)を提案する。
PANMは、新しい物理アドレスとポインタ操作技術を使用して、人間とコンピュータのシンボル処理能力を模倣する外部のニューラルメモリを統合する。
PANMは、メモリコンテンツにアクセスするために物理的ポインタを明示的に使用することにより、ポインタの割り当て、参照、演算を容易にする。
注目すべきは、シーケンスデータに対するエンドツーエンドのトレーニングを通じて、これらの操作を学習し、さまざまなシーケンシャルモデルを実行することだ。
実験では,PANMの例外長外挿能力と,アルゴリズム推論やDyck言語認識などのシンボル処理を必要とするタスクの性能向上を実証した。
PANMは、Transformerが合成学習タスクにおいて最大100%の一般化精度を達成し、数学的推論、質問応答、機械翻訳タスクにおいて大幅に改善するのに役立つ。
関連論文リスト
- Spiking representation learning for associative memories [0.0]
本稿では、教師なし表現学習と連想記憶操作を行う新しい人工スパイクニューラルネットワーク(SNN)を提案する。
モデルの構造は新皮質列状構造から派生し,隠れた表現を学習するためのフィードフォワードプロジェクションと,連想記憶を形成するための繰り返しプロジェクションを組み合わせたものである。
論文 参考訳(メタデータ) (2024-06-05T08:30:11Z) - PARMESAN: Parameter-Free Memory Search and Transduction for Dense Prediction Tasks [5.5127111704068374]
この研究は、トランスダクティブ推論によるディープラーニングの柔軟性に対処する。
我々は,高密度予測タスクを解くためにメモリモジュールを活用するスケーラブルな手法であるPARMESANを提案する。
提案手法は,一般的なアーキテクチャと互換性があり,標準で1D,2D,3Dグリッドベースのデータに転送する。
論文 参考訳(メタデータ) (2024-03-18T12:55:40Z) - Token Turing Machines [53.22971546637947]
Token Turing Machines (TTM) はシーケンシャルな自己回帰型トランスフォーマーモデルである。
我々のモデルは、セミナルなニューラルチューリングマシンにインスパイアされ、以前の履歴を要約するトークンの集合からなる外部メモリを持つ。
論文 参考訳(メタデータ) (2022-11-16T18:59:18Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Graph Convolutional Memory for Deep Reinforcement Learning [8.229775890542967]
深部強化学習を用いてPOMDPを解くためのグラフ畳み込みメモリ(GCM)を提案する。
リカレントニューラルネットワーク(RNN)やトランスフォーマーとは異なり、GCMは知識グラフを通じて、ドメイン固有の事前情報をメモリリコールプロセスに埋め込む。
グラフ畳み込みを用いたGCMは、畳み込みニューラルネットワーク(CNN)における画像特徴に類似した階層グラフ特徴を抽出する
論文 参考訳(メタデータ) (2021-06-27T00:22:51Z) - Robust High-dimensional Memory-augmented Neural Networks [13.82206983716435]
メモリ拡張ニューラルネットワークは、これらの問題を克服するために、明示的なメモリでニューラルネットワークを強化する。
この明示的なメモリへのアクセスは、各個々のメモリエントリを含むソフト読み取りおよび書き込み操作を介して行われる。
本稿では,高次元(HD)ベクトル上でのアナログインメモリ計算を行う明示メモリとして,計算メモリユニットを用いた頑健なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-05T12:01:56Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。
我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文 参考訳(メタデータ) (2020-06-20T09:06:27Z) - Encoding-based Memory Modules for Recurrent Neural Networks [79.42778415729475]
本稿では,リカレントニューラルネットワークの設計とトレーニングの観点から,記憶サブタスクについて考察する。
本稿では,線形オートエンコーダを組み込んだエンコーディングベースのメモリコンポーネントを特徴とする新しいモデルであるLinear Memory Networkを提案する。
論文 参考訳(メタデータ) (2020-01-31T11:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。