論文の概要: Fast-weight Product Key Memory
- arxiv url: http://arxiv.org/abs/2601.00671v1
- Date: Fri, 02 Jan 2026 12:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.56716
- Title: Fast-weight Product Key Memory
- Title(参考訳): ファスト級製品キーメモリ
- Authors: Tianyu Zhao, Llion Jones,
- Abstract要約: スパース製品キーメモリ(PKM)を動的に「高速」エピソードメモリに変換するために,高速製品キーメモリ(FwPKM)を提案する。
実験により、FwPKMは標準モジュールのセマンティックメモリを補完する効果的なエピソードメモリとして機能することが明らかになった。
- 参考スコア(独自算出の注目度): 4.223740794663811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence modeling layers in modern language models typically face a trade-off between storage capacity and computational efficiency. While Softmax attention offers unbounded storage at prohibitive quadratic costs, linear variants provide efficiency but suffer from limited, fixed-size storage. We propose Fast-weight Product Key Memory (FwPKM), a novel architecture that resolves this tension by transforming the sparse Product Key Memory (PKM) from a static module into a dynamic, "fast-weight" episodic memory. Unlike PKM, FwPKM updates its parameters dynamically at both training and inference time via local chunk-level gradient descent, allowing the model to rapidly memorize and retrieve new key-value pairs from input sequences. Experiments reveal that FwPKM functions as an effective episodic memory that complements the semantic memory of standard modules, yielding significant perplexity reductions on long-context datasets. Notably, in Needle in a Haystack evaluations, FwPKM generalizes to 128K-token contexts despite being trained on only 4K-token sequences.
- Abstract(参考訳): 現代の言語モデルにおけるシーケンス・モデリング・レイヤは通常、記憶容量と計算効率のトレードオフに直面します。
ソフトマックス・アテンションは禁止された2次コストで無制限のストレージを提供するが、線形変種は効率性を提供するが、制限された固定サイズのストレージに悩まされる。
本稿では,FwPKM(Fast-weight Product Key Memory)を静的モジュールから動的に"fast-weight"なエピソードメモリに変換することで,このテンションを解消する新しいアーキテクチャを提案する。
PKMとは異なり、FwPKMはトレーニング時間と推論時間の両方でパラメータを動的に更新する。
実験により、FwPKMは、標準モジュールのセマンティックメモリを補完する効果的なエピソードメモリとして機能し、長いコンテキストデータセットにおいて重大なパープレキシティ低下をもたらすことが明らかになった。
特に、Haystackの評価におけるNeedleでは、FwPKMは4K-tokenシーケンスでのみトレーニングされているにもかかわらず、128K-tokenコンテキストに一般化されている。
関連論文リスト
- Trellis: Learning to Compress Key-Value Memory in Attention Models [48.12167339402521]
本稿では,有界メモリを備えた新しいトランスフォーマーアーキテクチャであるTrellisを紹介する。
Trellisは標準のKVキャッシュを固定サイズのメモリに置き換え、新しいキーと値をメモリに格納する2パスのリカレント圧縮機構を訓練する。
言語モデリング、常識推論、リコール集約タスク、時系列に関する実験は、提案されたアーキテクチャが強力なベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-29T20:32:10Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - Runtime Adaptive Pruning for LLM Inference [7.5252252615137225]
我々は、強化学習(RL)によって駆動される弾力的な刈り取りフレームワークであるRAPを提案する。
RAPは、実際の実行におけるモデルパラメータとKV-cacheの進化率を追跡する。
RAPは最先端のベースラインよりも優れており、モデル重量とKVcacheを同時に検討するのは初めてである。
論文 参考訳(メタデータ) (2025-05-22T06:12:42Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。