論文の概要: Lattice: Learning to Efficiently Compress the Memory
- arxiv url: http://arxiv.org/abs/2504.05646v1
- Date: Tue, 08 Apr 2025 03:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:05.026749
- Title: Lattice: Learning to Efficiently Compress the Memory
- Title(参考訳): Lattice: メモリを効率よく圧縮する方法を学ぶ
- Authors: Mahdi Karami, Vahab Mirrokni,
- Abstract要約: 本稿では,キャッシュを一定数のメモリスロットに効率よく圧縮する新しいリカレントニューラルネットワーク(RNN)機構であるLatticeを紹介する。
我々は、この圧縮をオンライン最適化問題として定式化し、単一の勾配降下ステップに基づいて動的メモリ更新ルールを導出する。
実験結果から,Latticeはコンテキスト長の異なるすべてのベースラインと比較して,最も難易度が高いことがわかった。
- 参考スコア(独自算出の注目度): 13.765057453744427
- License:
- Abstract: Attention mechanisms have revolutionized sequence learning but suffer from quadratic computational complexity. This paper introduces Lattice, a novel recurrent neural network (RNN) mechanism that leverages the inherent low-rank structure of K-V matrices to efficiently compress the cache into a fixed number of memory slots, achieving sub-quadratic complexity. We formulate this compression as an online optimization problem and derive a dynamic memory update rule based on a single gradient descent step. The resulting recurrence features a state- and input-dependent gating mechanism, offering an interpretable memory update process. The core innovation is the orthogonal update: each memory slot is updated exclusively with information orthogonal to its current state hence incorporation of only novel, non-redundant data, which minimizes the interference with previously stored information. The experimental results show that Lattice achieves the best perplexity compared to all baselines across diverse context lengths, with performance improvement becoming more pronounced as the context length increases.
- Abstract(参考訳): 注意機構はシーケンス学習に革命をもたらしたが、二次計算の複雑さに悩まされている。
本稿では、K-V行列の固有の低ランク構造を利用してキャッシュを固定数のメモリスロットに効率よく圧縮し、サブクアドラティックな複雑性を実現する新しいリカレントニューラルネットワーク(RNN)機構であるLatticeを紹介する。
我々は、この圧縮をオンライン最適化問題として定式化し、単一の勾配降下ステップに基づいて動的メモリ更新ルールを導出する。
その結果、状態依存と入力依存のゲーティング機構を備え、解釈可能なメモリ更新プロセスを提供する。
各メモリスロットは、現在の状態に直交する情報のみで更新されるため、従来記憶されていた情報との干渉を最小限に抑える新しい非冗長データのみを組み込む。
実験結果から,Latticeはコンテキスト長が大きくなるにつれて性能が向上し,様々なコンテキスト長にわたるすべてのベースラインと比較して,最も難易度が高いことがわかった。
関連論文リスト
- MoM: Linear Sequence Modeling with Mixture-of-Memories [9.665802842933209]
我々はMixture-of-Memories (MoM)と呼ばれる新しいアーキテクチャを導入する。
MoMは複数の独立したメモリ状態を利用し、ルータネットワークは入力トークンを特定のメモリ状態に誘導する。
MoMは、既存の線形シーケンスモデリング技術を超え、リコール集約タスクにおいて非常によく機能する。
論文 参考訳(メタデータ) (2025-02-19T12:53:55Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - MPruner: Optimizing Neural Network Size with CKA-Based Mutual Information Pruning [7.262751938473306]
プルーニング(Pruning)は、ニューラルネットワークのサイズを減らし、数学的に精度の保存を保証している、よく確立されたテクニックである。
我々は,ベクトル類似性により相互情報を活用する新しいプルーニングアルゴリズムMPrunerを開発した。
MPrunerはCNNとトランスフォーマーベースのモデルで最大50%のパラメータとメモリ使用量の削減を実現した。
論文 参考訳(メタデータ) (2024-08-24T05:54:47Z) - Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。
Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-01-24T03:03:17Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - HiPPO: Recurrent Memory with Optimal Polynomial Projections [93.3537706398653]
本稿では,連続信号と離散時系列をベースに投影してオンライン圧縮するための一般フレームワーク(HiPPO)を提案する。
過去の各時間ステップの重要性を示す尺度が与えられた場合、HiPPOは自然なオンライン関数近似問題に対する最適解を生成する。
このフォーマルなフレームワークは、すべての履歴を記憶するために時間をかけてスケールする新しいメモリ更新メカニズム(HiPPO-LegS)を提供する。
論文 参考訳(メタデータ) (2020-08-17T23:39:33Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - Ordering Chaos: Memory-Aware Scheduling of Irregularly Wired Neural
Networks for Edge Devices [10.876317610988059]
我々は、SERENITYと呼ばれるメモリ認識コンパイラを提案し、最適なメモリフットプリントでスケジュールを見つけるシーケンスを見つける。
私たちのソリューションは、最適値を超えたさらなる削減を可能にするグラフ書き換え技術も備えています。
論文 参考訳(メタデータ) (2020-03-04T23:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。