論文の概要: Key-Value Means: Transformers with Expandable Block-Recurrent Compressed Memory
- arxiv url: http://arxiv.org/abs/2605.09877v2
- Date: Wed, 13 May 2026 05:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.842366
- Title: Key-Value Means: Transformers with Expandable Block-Recurrent Compressed Memory
- Title(参考訳): Key-Value Means: 拡張可能なブロックリカレント圧縮メモリを備えたトランスフォーマー
- Authors: Daniel Goldstein, Eugene Cheah,
- Abstract要約: キーバリュー平均(英: Key-Value Means、KVM)は、固定サイズまたは成長状態のいずれかに対応可能な、注目のためのブロックリカレンスである。
本研究は,4次前処理時間と線形状態成長しか持たない長期コンテキストテストにおいて,競争力を発揮することを示す。
- 参考スコア(独自算出の注目度): 1.3714815350300447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Key-Value Means ("KVM"), a novel block-recurrence for attention that can accommodate either fixed-size or growing state. Equipping a strong transformer baseline with fixed-size KVM attention layers yields a strong $O(N)$ chunked RNN, while adding only an insignificant number of new parameters. We train a transformer with a growable KVM cache and show it performs competitively on long-context tests with only subquadratic prefill time and sublinear state growth. KVM is implementable with standard operations and without custom kernels, and supports chunk-wise parallelizable training and prefill. It provides many of the benefits of both traditional transformers (expandable context memory, chunk-wise parallelizable training and prefill) and linear RNNs in a single unified package. It can be used on every layer, saving KV-cache memory, and allowing a continuous range of choices of prefill time complexity between $O(N)$ and $O(N^2)$. It can also be implemented in a hybrid solution in tandem with LRNN layers in place of traditional attention, to supplement the LRNN with improved sublinear memory growth context length usage and long context decoding. We release our code at https://github.com/recursal/KVM-paper and trained models at https://huggingface.co/collections/recursal/key-value-means under the Apache 2.0 license.
- Abstract(参考訳): KVM(Key-Value Means)は、固定サイズまたは成長状態のいずれかに対応可能な、注目のための新しいブロックリカレンスである。
固定サイズのKVMアテンション層を持つ強いトランスフォーマーベースラインを取得すれば、大きな$O(N)$チャンクされたRNNが得られるが、新しいパラメータが無数に追加されるだけである。
我々は、成長可能なKVMキャッシュでトランスフォーマーをトレーニングし、サブクアクラティックプリフィル時間とサブ線形状態成長のみで、長期コンテキストテストで競争力を発揮することを示す。
KVMは標準の操作とカスタムカーネルなしで実装可能で、チャンクワイズ可能なトレーニングとプリフィルをサポートしている。
従来のトランスフォーマー(拡張可能なコンテキストメモリ、チャンクワイド並列化可能なトレーニングとプリフィル)と線形RNNの両方の利点を、単一の統一パッケージで提供する。
すべてのレイヤで使用でき、KV-cacheメモリを節約し、$O(N)$と$O(N^2)$の間のプリフィル時間複雑性を連続的に選択できる。
また、LRNN層に代えて、従来のLRNN層とハイブリッドソリューションで実装し、LRNNを補完し、サブ線形メモリ成長コンテキスト長と長いコンテキストデコーディングを改善した。
我々は、https://github.com/recursal/KVM-paperでコードをリリースし、Apache 2.0ライセンスの下でトレーニングされたモデルをhttps://huggingface.co/collections/recursal/key-value-meansでリリースします。
関連論文リスト
- Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling [25.551309705184234]
HyLoは、効率的な後トレーニングを通じて、使用可能なコンテキスト長を最大32ドルまで拡張する。
HyLoは、一貫して強い短文と長文のパフォーマンスを提供する。
同様のスケールで、HyLo-Qwen-1.7Bは10Bのトークンのみを訓練し、GSM8K、Lm-Harness Common sense reasoning、RULER-64KでJetNemotronを上回った。
論文 参考訳(メタデータ) (2026-04-27T17:23:37Z) - M$^2$RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling [53.351103753419046]
本稿では,行列値の隠蔽状態と表現的非線形状態遷移を持つアーキテクチャであるMatrix-to-Matrix RNNを紹介する。
非線形RNNの言語モデリング性能は,その状態サイズによって制限されていることを示す。
また、状態サイズ拡大機構がテンソルコアの効率的な利用を可能にすることを示す。
論文 参考訳(メタデータ) (2026-03-15T12:53:09Z) - CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling [40.705016911274]
本稿では,LLMがメモリ使用量と線形時間複雑度を一定に保ちながら任意の長いシーケンスを処理できる新しいアーキテクチャを提案する。
CoMeTは最小限の微調整で事前訓練されたモデルに統合できる。
CoMeTと32kコンテキストに微調整されたモデルでは、1Mトークンシーケンス内の任意の位置からパスキーを正確に取得することができる。
論文 参考訳(メタデータ) (2026-02-02T07:49:44Z) - Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文 参考訳(メタデータ) (2025-11-20T18:56:05Z) - FlashRNN: I/O-Aware Optimization of Traditional RNNs on modern hardware [6.749483762719583]
状態追跡機能は、時系列タスクと論理的推論にとって重要である。
LSTMやGRUのような従来のRNNは、厳密にシーケンシャルな処理を犠牲にしてこれらの機能を備えている。
我々は、Tritonのハードウェア最適化FlashRNNと、レジスタレベルに最適化されたカーネルで、これらのネットワークがどれだけ高速になるかを示す。
論文 参考訳(メタデータ) (2024-12-10T18:50:37Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Transformers are Multi-State RNNs [25.99353771107789]
我々はデコーダのみの変換器を非有界マルチステートRNNとして概念化できることを示す。
トランスフォーマーは、隠された状態のサイズを固定することで、$textitbounded$ multi-state RNNに変換することができる。
トレーニング不要な新しい圧縮ポリシー - $textbfT$oken $textbfO$mission $textbfV$ia $textbfA$ttention (TOVA)を導入します。
論文 参考訳(メタデータ) (2024-01-11T18:35:26Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - SMYRF: Efficient Attention using Asymmetric Clustering [103.47647577048782]
本稿では,注目度を近似する新しいタイプのバランスクラスタリングアルゴリズムを提案する。
SMYRFは、再トレーニングすることなく、高密度の注意層をドロップインで置き換えることができる。
SMYRFは,訓練前後の集中的注意と相互に使用できることが示唆された。
論文 参考訳(メタデータ) (2020-10-11T18:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。