論文の概要: Memory Caching: RNNs with Growing Memory
- arxiv url: http://arxiv.org/abs/2602.24281v1
- Date: Fri, 27 Feb 2026 18:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.574247
- Title: Memory Caching: RNNs with Growing Memory
- Title(参考訳): メモリキャッシュ: メモリが増大するRNN
- Authors: Ali Behrouz, Zeman Li, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni,
- Abstract要約: メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 56.25483647131372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have been established as the de-facto backbones for most recent advances in sequence modeling, mainly due to their growing memory capacity that scales with the context length. While plausible for retrieval tasks, it causes quadratic complexity and so has motivated recent studies to explore viable subquadratic recurrent alternatives. Despite showing promising preliminary results in diverse domains, such recurrent architectures underperform Transformers in recall-intensive tasks, often attributed to their fixed-size memory. In this paper, we introduce Memory Caching (MC), a simple yet effective technique that enhances recurrent models by caching checkpoints of their memory states (a.k.a. hidden states). Memory Caching allows the effective memory capacity of RNNs to grow with sequence length, offering a flexible trade-off that interpolates between the fixed memory (i.e., $O(L)$ complexity) of RNNs and the growing memory (i.e., $O(L^2)$ complexity) of Transformers. We propose four variants of MC, including gated aggregation and sparse selective mechanisms, and discuss their implications on both linear and deep memory modules. Our experimental results on language modeling, and long-context understanding tasks show that MC enhances the performance of recurrent models, supporting its effectiveness. The results of in-context recall tasks indicate that while Transformers achieve the best accuracy, our MC variants show competitive performance, close the gap with Transformers, and performs better than state-of-the-art recurrent models.
- Abstract(参考訳): トランスフォーマーは、ほとんどの最近のシーケンスモデリングの進歩のためにデファクトバックボーンとして確立されてきた。
検索タスクには適しているが、これは二次的な複雑さを引き起こすため、近年では4次的再帰的な代替手段の探索に動機付けている。
様々なドメインで有望な事前結果を示したにもかかわらず、リコール集約タスクにおいて、リカレントアーキテクチャはトランスフォーマーを過小評価し、しばしば固定サイズのメモリに起因する。
本稿では,メモリ状態のチェックポイント(隠蔽状態)をキャッシュすることで,リカレントモデルを改善する,シンプルで効果的なメモリキャッシング(MC)手法を提案する。
メモリキャッシュにより、RNNの効果的なメモリ容量はシーケンス長で成長し、RNNの固定メモリ(すなわち$O(L)$複雑性)とトランスフォーマーの増大するメモリ(すなわち$O(L^2)$複雑さ)を補間する柔軟なトレードオフを提供する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
言語モデリングおよび長文理解タスクに関する実験結果から,MCは繰り返しモデルの性能を高め,その性能を向上することが示された。
コンテクスト内リコールタスクの結果は,トランスフォーマーが最高の精度を達成する一方で,我々のMC変種は競合性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示すことを示している。
関連論文リスト
- Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning [53.72709564555407]
Memoは、強化学習のためのトランスフォーマーベースのアーキテクチャとトレーニングのレシピである。
トレーニング中のモデルの入力と周期的な要約トークンをインターリーブすることで、メモリの生成と検索を組み込む。
グリッドワールドメタRLベンチマークとマルチオブジェクトナビゲーションタスクにおけるMemoの有効性を,フォトリアリスティック屋内環境で実証する。
論文 参考訳(メタデータ) (2025-10-22T16:24:47Z) - MemMamba: Rethinking Memory Patterns in State Space Model [6.537535831000493]
マンバのような選択的状態空間モデルは O(n) 時間と O(1) 繰り返しの推論で高い効率性を示すが、その長距離メモリは指数関数的に崩壊する。
長文読解時の塩分情報の蒸留・保存方法に着想を得て,MemMambaを提案する。
MemMambaは、長期間のベンチマークで既存のMambaとTransformerよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-28T14:40:58Z) - ATLAS: Learning to Optimally Memorize the Context at Test Time [31.41718170413687]
ATLASは、コンテキストを記憶する能力の高い長期記憶モジュールである。
本稿では,従来のトランスフォーマーアーキテクチャの厳密な一般化であるDeep Transformerと呼ばれる,トランスフォーマーライクなアーキテクチャの新たなファミリーを紹介する。
論文 参考訳(メタデータ) (2025-05-29T17:57:16Z) - Cached Transformers: Improving Transformers with Differentiable Memory
Cache [71.28188777209034]
この作業では、Cached Transformerと呼ばれる新しいTransformerモデルが導入されている。
Gated Recurrent Cached (GRC) を使用して、トークンの異なるメモリキャッシュで自己アテンションメカニズムを拡張する。
論文 参考訳(メタデータ) (2023-12-20T03:30:51Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Recurrent Memory Transformer [0.3529736140137003]
メモリ拡張セグメントレベルリカレント変圧器(リカレントメモリ変圧器)について検討する。
入力や出力シーケンスに特別なメモリトークンを追加することで、Transformerモデルに変更を加えることなくメモリ機構を実装します。
我々のモデルは、より小さなメモリサイズのための言語モデリングにおけるTransformer-XLと同等に動作し、より長いシーケンス処理を必要とするタスクに対して性能を向上する。
論文 参考訳(メタデータ) (2022-07-14T13:00:22Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。