論文の概要: Hybrid Associative Memories
- arxiv url: http://arxiv.org/abs/2603.22325v2
- Date: Fri, 27 Mar 2026 02:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.126572
- Title: Hybrid Associative Memories
- Title(参考訳): ハイブリッド連想記憶
- Authors: Leon Lufkin, Tomás Figliolia, Beren Millidge, Kamesh Krishnamurthy,
- Abstract要約: リカレントニューラルネットワーク(RNN)と自己アテンション(自己アテンション)は、内部メモリを維持するシーケンスミキシング層として広く使用されている。
本稿では,自己注意とRNNを組み合わせて,それぞれの強みを活かしたハイブリッド連想記憶層を提案する。
- 参考スコア(独自算出の注目度): 9.608866388449337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent neural networks (RNNs) and self-attention are both widely used sequence-mixing layers that maintain an internal memory. However, this memory is constructed using two orthogonal mechanisms: RNNs compress the entire past into a fixed-size state, whereas self-attention's state stores every past time step growing its state (the KV cache) linearly with the sequence length. This results in orthogonal strengths and weaknesses. Self-attention layers excel at retrieving information in the context but have large memory and computational costs, while RNNs are more efficient but degrade over longer contexts and underperform for precise recall tasks. Prior work combining these mechanisms has focused primarily on naively interleaving them to reduce computational cost without regard to their complementary mechanisms. We propose the Hybrid Associative Memory (HAM) layer, which combines self-attention and RNNs while leveraging their individual strengths: the RNN compresses the entire sequence, while attention supplements it *only* with information that is difficult for the RNN to predict, which is hence the most valuable information to explicitly store. HAM layers enable data-dependent growth of the KV cache, which can be precisely controlled by the user with a single, continuous threshold. We find that this fine-grained control of the KV cache growth rate has a smooth trade-off with loss and performance. Empirically, we show that our hybrid architecture offers strong, competitive performance relative to RNNs and Transformers even at substantially lower KV-cache usage.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)と自己アテンション(自己アテンション)はどちらも、内部メモリを保持するシーケンスミキシング層として広く使用されている。
しかし、このメモリは2つの直交機構を用いて構築されている: RNNは過去全体を固定サイズの状態に圧縮するが、自己注意状態は、その状態(KVキャッシュ)を配列長と線形に成長させるすべての過去のステップを格納する。
これは直交の強さと弱さをもたらす。
自己注意層は、コンテキスト内の情報を取得するのに優れ、メモリと計算コストは大きいが、RNNはより効率的だが、より長いコンテキストよりも劣化し、正確なリコールタスクでは不十分である。
これらのメカニズムを組み合わせる以前の研究は、主に相補的なメカニズムによらず、計算コストを削減するために、ナレーション的にそれらをインターリーブすることに焦点を当ててきた。
RNNはシーケンス全体を圧縮し、注目はRNNが予測するのが難しい情報で*のみ補う。
HAMレイヤはKVキャッシュのデータ依存的な成長を可能にする。
このKVキャッシュ増加率のきめ細かい制御は、損失と性能のトレードオフを円滑に行うことが判明した。
実験により,我々のハイブリッドアーキテクチャは,KVキャッシュ使用率が著しく低い場合でも,RNNやTransformerと比較して強力な,競争力のある性能を提供することを示した。
関連論文リスト
- Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-27T18:53:41Z) - Online Vector Quantized Attention [8.77648559398825]
セルフアテンションは長時間のタスクではうまく機能するが、高価な二次計算と線形メモリコストがある。
線形アテンションとSSMは線形計算と定数メモリのみを使用するが、長いコンテキスト処理に苦労する。
我々は,メモリ計算コストと長文処理の妥協性を改善するために,シーケンス混合層を開発した。
論文 参考訳(メタデータ) (2026-02-03T18:50:00Z) - Parallelizable memory recurrent units [1.3159512679346688]
本稿では、非線形RNNの永続的メモリ能力とSSMの並列化計算を組み合わせたメモリリカレントユニット(MRU)を新たに導入する。
BMRUは長期依存型タスクにおいて良好な結果が得られ、状態空間モデルと組み合わせて並列化可能で過渡的ダイナミクスと永続メモリを備えたハイブリッドネットワークを構築することができることを示す。
論文 参考訳(メタデータ) (2026-01-14T14:01:11Z) - Hardware-aligned Hierarchical Sparse Attention for Efficient Long-term Memory Access [45.93560838798272]
長距離ランダムアクセスの柔軟性でRNNを強化する新しいアテンション機構である階層スパース注意(HSA)を提案する。
HSAは入力をチャンクに分割し、トップ$k$チャンクを選択し、階層的に情報を集約する。
HSAとMambaを組み合わせることで、RAMbaを導入し、64万のコンテキストにわたるパスキー検索の完全精度を実現する。
論文 参考訳(メタデータ) (2025-04-23T15:15:06Z) - Lattice: Learning to Efficiently Compress the Memory [13.765057453744427]
本稿では,キャッシュを一定数のメモリスロットに効率よく圧縮する新しいリカレントニューラルネットワーク(RNN)機構であるLatticeを紹介する。
我々は、この圧縮をオンライン最適化問題として定式化し、単一の勾配降下ステップに基づいて動的メモリ更新ルールを導出する。
実験結果から,Latticeはコンテキスト長の異なるすべてのベースラインと比較して,最も難易度が高いことがわかった。
論文 参考訳(メタデータ) (2025-04-08T03:48:43Z) - NAC-TCN: Temporal Convolutional Networks with Causal Dilated
Neighborhood Attention for Emotion Understanding [60.74434735079253]
畳み込みTCN(NAC-TCN)を用いた近傍注意法を提案する。
これを実現するために、Dilated Neighborhood Attentionの因果バージョンを導入し、畳み込みを組み込んだ。
我々のモデルは、標準的な感情認識データセットに少ないパラメータを必要としながら、TCN、TCL、LSTM、GRUに匹敵する、より優れた、あるいは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-12T18:41:30Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Working Memory Connections for LSTM [51.742526187978726]
ワーキングメモリ接続は,様々なタスクにおけるLSTMの性能を常に向上することを示す。
数値的な結果は、細胞状態がゲート構造に含まれる価値のある情報を含んでいることを示唆している。
論文 参考訳(メタデータ) (2021-08-31T18:01:30Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。