論文の概要: Kwai Summary Attention Technical Report
- arxiv url: http://arxiv.org/abs/2604.24432v1
- Date: Mon, 27 Apr 2026 12:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.012253
- Title: Kwai Summary Attention Technical Report
- Title(参考訳): Kwai概要報告
- Authors: Chenglong Chu, Guorui Zhou, Guowang Zhang, Han Li, Hao Peng, Hongtao Cheng, Jian Liang, Jiangxia Cao, Kun Gai, Lingzhi Zhou, Lu Ren, Qi Zhang, Ruiming Tang, Ruitao Wang, Xinchen Luo, Yi Su, Zhiyuan Liang, Ziqi Wang, Boyang Ding, Chengru Song, Dunju Zang, Hui Wang, Jiao Ou, Jiaxin Deng, Jijun Shi, Jinghao Zhang, Junmin Chen, Lejian Ren, Minxuan Lv, Qianqian Wang, Qigen Hu, Shiyao Wang, Siyang Mao, Tao Wang, Xingmei Wang, Zhixin Ling, Ziming Li, Zixing Zhang,
- Abstract要約: 長文の能力は、次世代の大規模言語モデルの最も重要な方向性の1つになっている。
標準ソフトマックスアテンションは、シーケンスの長さに関して2次時間複雑性を示す。
歴史的文脈を圧縮することでシーケンスモデリングコストを削減する新しいアテンションメカニズムであるKwai Summary Attention (KSA)を提案する。
- 参考スコア(独自算出の注目度): 69.40814939510126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context ability, has become one of the most important iteration direction of next-generation Large Language Models, particularly in semantic understanding/reasoning, code agentic intelligence and recommendation system. However, the standard softmax attention exhibits quadratic time complexity with respect to sequence length. As the sequence length increases, this incurs substantial overhead in long-context settings, leading the training and inference costs of extremely long sequences deteriorate rapidly. Existing solutions mitigate this issue through two technique routings: i) Reducing the KV cache per layer, such as from the head-level compression GQA, and the embedding dimension-level compression MLA, but the KV cache remains linearly dependent on the sequence length at a 1:1 ratio. ii) Interleaving with KV Cache friendly architecture, such as local attention SWA, linear kernel GDN, but often involve trade-offs among KV Cache and long-context modeling effectiveness. Besides the two technique routings, we argue that there exists an intermediate path not well explored: {Maintaining a linear relationship between the KV cache and sequence length, but performing semantic-level compression through a specific ratio $k$}. This $O(n/k)$ path does not pursue a ``minimum KV cache'', but rather trades acceptable memory costs for complete, referential, and interpretable retention of long distant dependency. Motivated by this, we propose Kwai Summary Attention (KSA), a novel attention mechanism that reduces sequence modeling cost by compressing historical contexts into learnable summary tokens.
- Abstract(参考訳): 長期コンテキスト能力は、特に意味理解/推論、コードエージェントインテリジェンス、レコメンデーションシステムにおいて、次世代の大規模言語モデルの最も重要な反復方向の1つになっている。
しかし、標準的なソフトマックスアテンションは、シーケンス長に関して2次時間複雑性を示す。
シーケンスの長さが増加するにつれて、長いコンテキスト設定でかなりのオーバーヘッドが発生し、非常に長いシーケンスのトレーニングと推論コストが急速に低下する。
既存のソリューションは、この問題を2つのテクニックのルーティングを通じて緩和する。
i)ヘッドレベル圧縮GQAや埋め込み次元圧縮MLAなどの層ごとのKVキャッシュを削減するが、KVキャッシュは1:1の比率でシーケンス長に線形に依存する。
二 ローカルアテンションSWA、リニアカーネルGDNのようなKVキャッシュフレンドリーなアーキテクチャと相互運用するが、KVキャッシュ間のトレードオフや長文モデリングの有効性がしばしば発生する。
KVキャッシュとシーケンス長の線形関係を持つが、特定の比$k$}で意味レベルの圧縮を行う。
この$O(n/k)$ path は ``minimum KV cache'' を追求するのではなく、長い依存の完全、参照、解釈可能な保持のために許容されるメモリコストを交換する。
そこで本稿では,歴史的文脈を学習可能な要約トークンに圧縮することでシーケンスモデリングコストを削減できる新しい注意機構であるKwai Summary Attention (KSA)を提案する。
関連論文リスト
- ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs [1.1267872663780352]
大規模言語モデル(LLM)は、超長期のコンテキスト推論を必要とするシナリオにますますデプロイされている。
既存のメモリ削減技術、例えば消去や量子化は、しばしば静的キャッシュに依存している。
キャッシュされたトークンに精度レベルを動的に割り当てる軽量で適応的なフレームワークARKVを提案する。
論文 参考訳(メタデータ) (2026-02-19T16:24:08Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - Retrospective Sparse Attention for Efficient Long-Context Generation [5.562294018150909]
RetroAttentionは、後続の復号ステップから新たに到着したKVエントリを使用して、過去の注意出力を遡及的に更新する。
これは固定アテンション・アウトプットのパラダイムを破り、事前近似の継続的な修正を可能にする。
実験により、RetroAttention は最先端(SOTA) KV 圧縮法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-08-12T15:11:47Z) - Sparse Attention across Multiple-context KV Cache [8.236266965773465]
推論効率を改善するために、履歴キーバリュー(KV)キャッシュを再利用することは、主流のアプローチとなっている。
近年の進歩は、KVキャッシュを選択できるスパースアテンション機構によってスループットをさらに向上させる。
本論文では,マルチコンテキストKVキャッシュにおける注意スペーシフィケーションの最初の調査であるSamKVについて述べる。
論文 参考訳(メタデータ) (2025-08-06T02:53:14Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。