Fugu-MT 論文翻訳(概要): Memformer: A Memory-Augmented Transformer for Sequence Modeling

論文の概要: Memformer: A Memory-Augmented Transformer for Sequence Modeling

arxiv url: http://arxiv.org/abs/2010.06891v2
Date: Tue, 12 Apr 2022 20:57:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 13:18:59.364565
Title: Memformer: A Memory-Augmented Transformer for Sequence Modeling
Title（参考訳）: Memformer:シーケンスモデリングのためのメモリ拡張トランス
Authors: Qingyang Wu, Zhenzhong Lan, Kun Qian, Jing Gu, Alborz Geramifard, Zhou Yu
Abstract要約: 本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
参考スコア（独自算出の注目度）: 55.780849185884996
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers have reached remarkable success in sequence modeling. However, these models have efficiency issues as they need to store all the history token-level representations as memory. We present Memformer, an efficient neural network for sequence modeling, that utilizes an external dynamic memory to encode and retrieve past information. Our model achieves linear time complexity and constant memory space complexity when processing long sequences. We also propose a new optimization scheme, memory replay back-propagation (MRBP), which promotes long-range back-propagation through time with a significantly reduced memory requirement. Experimental results show that Memformer has achieved comparable performance compared to the baselines by using 8.1x less memory space and 3.2x faster on inference. Analysis of the attention pattern shows that our external memory slots can encode and retain important information through timesteps.
Abstract（参考訳）: トランスフォーマーはシーケンスモデリングで顕著な成功を収めている。しかしながら、これらのモデルには、すべての履歴トークンレベルの表現をメモリに格納する必要があるため、効率上の問題がある。本稿では,外部動的メモリを用いて過去の情報を符号化・検索する,効率的なシーケンスモデリング用ニューラルネットワークであるmemformerを提案する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。また,メモリ要求量を大幅に削減し,長期のバックプロパゲーションを促進する新たな最適化手法であるメモリ再生バックプロパゲーション(MRBP)を提案する。実験の結果、Memformerはメモリスペースを8.1倍、推論を3.2倍速くすることで、ベースラインと比較して同等のパフォーマンスを達成した。注意パターンの分析は、外部メモリスロットが時間ステップを通じて重要な情報をエンコードし保持できることを示しています。

関連論文リスト

R$^3$Mem: Bridging Memory Retention and Retrieval via Reversible Compression [24.825945729508682]
情報保持と検索の両方を最適化するメモリネットワークであるR$3$Memを提案する。 R$3$Memは、仮想メモリトークンを使用して無限に長い履歴を圧縮およびエンコードし、階層的な圧縮戦略によってさらに強化される。実験により,長文言語モデリングおよび検索強化生成タスクにおいて,メモリ設計が最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2025-02-21T21:39:00Z)
MoM: Linear Sequence Modeling with Mixture-of-Memories [9.665802842933209]
我々はMixture-of-Memories (MoM)と呼ばれる新しいアーキテクチャを導入する。 MoMは複数の独立したメモリ状態を利用し、ルータネットワークは入力トークンを特定のメモリ状態に誘導する。 MoMは、既存の線形シーケンスモデリング技術を超え、リコール集約タスクにおいて非常によく機能する。
論文参考訳（メタデータ） (2025-02-19T12:53:55Z)
Titans: Learning to Memorize at Test Time [20.12643072017223]
歴史的文脈を記憶するために学習するニューラルな長期記憶モジュールを提案する。このニューラルメモリは高速な推論を維持しつつ、高速な並列化可能なトレーニングの利点があることが示される。我々は、Titansと呼ばれる新しいアーキテクチャのファミリーを紹介し、このアーキテクチャにメモリを効果的に組み込む方法に対処する3つのバリエーションを提示します。
論文参考訳（メタデータ） (2024-12-31T22:32:03Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
Ultra-Sparse Memory Network [8.927205198458994]
この研究はUltraMemを導入し、これらの制限に対処するために大規模な超スパースメモリ層を組み込んだ。提案手法は,与えられた計算予算内で,最先端の推論速度とモデル性能を実現する。
論文参考訳（メタデータ） (2024-11-19T09:24:34Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。 B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文参考訳（メタデータ） (2024-07-08T18:41:01Z)
HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing [33.720656946186885]
Hierarchical Memory Transformer (HMT) はモデル長文処理を容易にする新しいフレームワークである。 HMTは、既存のモデルの長文処理能力を一貫して改善する。
論文参考訳（メタデータ） (2024-05-09T19:32:49Z)
Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文参考訳（メタデータ） (2023-05-30T19:25:51Z)
Recurrent Memory Transformer [0.3529736140137003]
メモリ拡張セグメントレベルリカレント変圧器(リカレントメモリ変圧器)について検討する。入力や出力シーケンスに特別なメモリトークンを追加することで、Transformerモデルに変更を加えることなくメモリ機構を実装します。我々のモデルは、より小さなメモリサイズのための言語モデリングにおけるTransformer-XLと同等に動作し、より長いシーケンス処理を必要とするタスクに対して性能を向上する。
論文参考訳（メタデータ） (2022-07-14T13:00:22Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Transformer with Memory Replay [13.478839407623978]
変換器は,大規模テキストコーパスの事前学習により,自然言語処理タスクの最先端性能を実現する。メモリリプレイは、メモリバッファからの保存と再生によって過去の例を記憶し再利用するメカニズムである。本稿では, メモリリプレイとトランスフォーマを統合したEmphTransformer with Memory Replay (TMR)を提案する。
論文参考訳（メタデータ） (2022-05-19T21:27:36Z)
LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。 LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文参考訳（メタデータ） (2022-04-15T06:11:25Z)
Memory Transformer [0.31406146587437894]
トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。我々は,これらのメモリ拡張トランスフォーマーを評価し,メモリの存在がモデル性能と正の相関関係があることを実証した。
論文参考訳（メタデータ） (2020-06-20T09:06:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。