論文の概要: Augmenting Attention with Exponentially Decaying Memory Improves Query-Aware KV Sparsity
- arxiv url: http://arxiv.org/abs/2605.28640v1
- Date: Wed, 27 May 2026 15:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.18576
- Title: Augmenting Attention with Exponentially Decaying Memory Improves Query-Aware KV Sparsity
- Title(参考訳): メモリの指数減少による注意力増強によるクエリ対応KVスポーラリティの改善
- Authors: Xiuying Wei, Caglar Gulcehre,
- Abstract要約: RAT+は,8つのハイスタックタスクにおいて,スパース予算全体にわたって,標準的注意力よりも常に精度を向上することを示す。
本稿では,このメモリモジュールがクエリ対応スパース推論に有効である理由を説明する2つの仮説を提案する。
- 参考スコア(独自算出の注目度): 13.471581610990187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient inference is critical for long-context language models, where attention computation and KV-cache access dominate the cost. Recent work RAT+, introduces a recurrence-augmented attention backbone that enables flexible dilated attention at inference time. In this paper, we investigate whether this exponentially decaying memory can also improve existing query-aware sparse inference methods. Using representative methods including Quest, MoBA, and SnapKV, we show that RAT+ consistently improves accuracy over standard attention across sparse budgets on eight needle-in-a-haystack tasks. We validate these gains both on the released checkpoints from the RAT+ paper and on OLMo2-7B, which we continue pretraining with the added memory module for 10B tokens. Finally, we propose two hypotheses explaining why this memory module benefits query-aware sparse inference and design targeted experiments to support them.
- Abstract(参考訳): 注意計算とKV-cacheアクセスがコストを支配している長文言語モデルでは、効率的な推論が重要である。
近年のRAT+では、推論時にフレキシブルな拡張されたアテンションバックボーンが導入されている。
本稿では,この指数関数的に減衰するメモリが,既存の問合せ対応スパース推論法を改善できるかどうかを考察する。
Quest, MoBA, SnapKVなどの代表的手法を用いることで, RAT+は8つのニードル・イン・ア・ヘイスタックタスクにおいて, まばらな予算にまたがる標準的注意力よりも常に精度を向上することを示す。
RAT+の論文からリリースされたチェックポイントとOLMo2-7Bの両方で、これらの利得を検証し、10Bトークンの追加メモリモジュールで事前トレーニングを継続する。
最後に,このメモリモジュールがスパース推論に有効である理由と,それをサポートするための実験を設計するための2つの仮説を提案する。
関連論文リスト
- RAT+: Train Dense, Infer Sparse -- Recurrence Augmented Attention for Dilated Inference [13.471581610990187]
RAT+は高密度な事前学習アーキテクチャであり,全シーケンスの繰り返しとアクティブな反復学習によって注意を増す。
100Bトークンでトレーニングされた1.5Bパラメータでは、RAT+は16の精度で密に一致し、コモンセンス推論とLongBenchタスクで64で約2-3ポイント低下する。
論文 参考訳(メタデータ) (2026-02-20T13:09:49Z) - Training Large Reasoning Models Efficiently via Progressive Thought Encoding [63.254758972725654]
大規模推論モデル(LRM)は複雑な問題に優れるが、効率にとって重要な障壁に直面している。
本稿では,パラメータ効率のよい微調整手法であるProgressive Thoughtを紹介する。
論文 参考訳(メタデータ) (2026-02-18T20:03:38Z) - Recurrent Preference Memory for Efficient Long-Sequence Generative Recommendation [27.325586037888]
本稿では,長いユーザインタラクション履歴をコンパクトなPreference Memoryトークンに圧縮するフレームワークRec2PMを紹介する。
実験の結果、Rec2PMは推論遅延とメモリフットプリントを著しく低減し、フルシーケンスモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2026-02-12T05:51:52Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。