論文の概要: Trellis: Learning to Compress Key-Value Memory in Attention Models
- arxiv url: http://arxiv.org/abs/2512.23852v1
- Date: Mon, 29 Dec 2025 20:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.206938
- Title: Trellis: Learning to Compress Key-Value Memory in Attention Models
- Title(参考訳): Trellis: 注意モデルでキーバリューメモリを圧縮する学習
- Authors: Mahdi Karami, Ali Behrouz, Praneeth Kacham, Vahab Mirrokni,
- Abstract要約: 本稿では,有界メモリを備えた新しいトランスフォーマーアーキテクチャであるTrellisを紹介する。
Trellisは標準のKVキャッシュを固定サイズのメモリに置き換え、新しいキーと値をメモリに格納する2パスのリカレント圧縮機構を訓練する。
言語モデリング、常識推論、リコール集約タスク、時系列に関する実験は、提案されたアーキテクチャが強力なベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 48.12167339402521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers, while powerful, suffer from quadratic computational complexity and the ever-growing Key-Value (KV) cache of the attention mechanism. This paper introduces Trellis, a novel Transformer architecture with bounded memory that learns how to compress its key-value memory dynamically at test time. Trellis replaces the standard KV cache with a fixed-size memory and train a two-pass recurrent compression mechanism to store new keys and values into memory. To achieve this, it leverages an online gradient descent procedure with a forget gate, enabling the compressed memory to be updated recursively while learning to retain important contextual information from incoming tokens at test time. Extensive experiments on language modeling, common-sense reasoning, recall-intensive tasks, and time series show that the proposed architecture outperforms strong baselines. Notably, its performance gains increase as the sequence length grows, highlighting its potential for long-context applications.
- Abstract(参考訳): トランスフォーマーは強力だが、2次計算の複雑さと注目機構のキーバリュー(KV)キャッシュに悩まされている。
本稿では,有界メモリを持つ新しいトランスフォーマーアーキテクチャであるTrellisを紹介し,テスト時にキー値メモリを動的に圧縮する方法を学習する。
Trellisは標準のKVキャッシュを固定サイズのメモリに置き換え、新しいキーと値をメモリに格納する2パスのリカレント圧縮機構を訓練する。
これを実現するために、オンライン勾配降下手順を忘れゲートで活用し、圧縮されたメモリを再帰的に更新し、テスト時に受信トークンから重要なコンテキスト情報を保持できるようにする。
言語モデリング、常識推論、リコール集約タスク、時系列に関する大規模な実験は、提案されたアーキテクチャが強力なベースラインを上回っていることを示している。
特に、シーケンスの長さが大きくなるにつれてパフォーマンスが向上し、長いコンテキストアプリケーションの可能性を強調している。
関連論文リスト
- Lattice: Learning to Efficiently Compress the Memory [13.765057453744427]
本稿では,キャッシュを一定数のメモリスロットに効率よく圧縮する新しいリカレントニューラルネットワーク(RNN)機構であるLatticeを紹介する。
我々は、この圧縮をオンライン最適化問題として定式化し、単一の勾配降下ステップに基づいて動的メモリ更新ルールを導出する。
実験結果から,Latticeはコンテキスト長の異なるすべてのベースラインと比較して,最も難易度が高いことがわかった。
論文 参考訳(メタデータ) (2025-04-08T03:48:43Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。