論文の概要: $\infty$-former: Infinite Memory Transformer
- arxiv url: http://arxiv.org/abs/2109.00301v1
- Date: Wed, 1 Sep 2021 10:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 14:25:46.361647
- Title: $\infty$-former: Infinite Memory Transformer
- Title(参考訳): $\infty$-former: Infinite Memory Transformer
- Authors: Pedro Henrique Martins and Zita Marinho and Andr\'e F. T. Martins
- Abstract要約: コンテクストの長さによって計算量が増加するため、トランスフォーマーは長いコンテクストに参加する際に苦労する。
本稿では,バニラ変圧器を長期メモリで拡張した$infty$-formerを提案する。
- 参考スコア(独自算出の注目度): 5.262376184578169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers struggle when attending to long contexts, since the amount of
computation grows with the context length, and therefore they cannot model
long-term memories effectively. Several variations have been proposed to
alleviate this problem, but they all have a finite memory capacity, being
forced to drop old information. In this paper, we propose the $\infty$-former,
which extends the vanilla transformer with an unbounded long-term memory. By
making use of a continuous-space attention mechanism to attend over the
long-term memory, the $\infty$-former's attention complexity becomes
independent of the context length. Thus, it is able to model arbitrarily long
contexts and maintain "sticky memories" while keeping a fixed computation
budget. Experiments on a synthetic sorting task demonstrate the ability of the
$\infty$-former to retain information from long sequences. We also perform
experiments on language modeling, by training a model from scratch and by
fine-tuning a pre-trained language model, which show benefits of unbounded
long-term memories.
- Abstract(参考訳): トランスフォーマーは、計算量がコンテキストの長さとともに増加するため、長期記憶を効果的にモデル化できないため、長い文脈に出席するときに苦労する。
この問題を緩和するためにいくつかのバリエーションが提案されているが、いずれもメモリ容量が有限であり、古い情報をドロップせざるを得ない。
本稿では,バニラ変圧器をアンバウンドの長期記憶で拡張する$\infty$-formerを提案する。
長期記憶における連続空間注意機構を利用することで、$\infty$-former の注意の複雑さはコンテキスト長に依存しない。
これにより、任意の長さの文脈をモデル化し、一定の計算予算を維持しながら「スティッキーメモリ」を維持することができる。
合成ソートタスクの実験は、$\infty$-former が長いシーケンスの情報を保持する能力を示している。
また、言語モデリングの実験を行い、スクラッチからモデルを訓練し、訓練済みの言語モデルを微調整することで、非有界な長期記憶の利点を示す。
関連論文リスト
- Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題
Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。
我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。
我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-24T09:25:37Z) - HMT: Hierarchical Memory Transformer for Long Context Language Processing [35.730941605490194]
Hierarchical Memory Transformer (HMT) は、モデル長文処理機能を実現し、改善する新しいフレームワークである。
我々は,HMTがコンテキスト制約付き長文モデルの長文処理能力を着実に改善していることを示す。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - Augmenting Language Models with Long-Term Memory [142.04940250657637]
既存の大規模言語モデル(LLM)では、入力長制限のため、固定サイズの入力しかできない。
本稿では,Long-Term Memory (LongMem) を付加した言語モデルを提案する。
論文 参考訳(メタデータ) (2023-06-12T15:13:39Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Not All Memories are Created Equal: Learning to Forget by Expiring [49.053569908417636]
本稿では,重要情報の保持を学習し,無関係情報を期限とするExpire-Spanを提案する。
この記憶を忘れることで、トランスフォーマーは数十万以上の前のタイムステップに効率的に参加することができます。
私たちは、Expire-Spanが数万の大きさの記憶にスケールできることを示し、信じられないほど長いコンテキストタスクに新しい状態を設定します。
論文 参考訳(メタデータ) (2021-05-13T20:50:13Z) - Sub-Linear Memory: How to Make Performers SLiM [38.068090269482425]
vanilla Transformerは、入力長$L$の関数としてシリアル時間とメモリで$O(L2)$を必要とする。
最近の研究は、連続計算に$o(l)$でしかスケールしない様々な線形自己アテンション機構を提案している。
計算の柔軟性は顕著であり, サブリニアメモリを用いた近似をすることなく, 前方および後方の伝播を行うことができる。
論文 参考訳(メタデータ) (2020-12-21T13:56:04Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。