論文の概要: MKA: Memory-Keyed Attention for Efficient Long-Context Reasoning
- arxiv url: http://arxiv.org/abs/2603.20586v1
- Date: Sat, 21 Mar 2026 01:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.984159
- Title: MKA: Memory-Keyed Attention for Efficient Long-Context Reasoning
- Title(参考訳): MKA: 効率的なロングコンテキスト推論のためのメモリキー型アテンション
- Authors: Dong Liu, Yanxuan Yu, Ben Lengerich, Ying Nian Wu,
- Abstract要約: マルチレベルKVキャッシュ(ローカル,セッション,長期)を統合した階層型アテンション機構を提案する。
FastMKAは、MLAに匹敵する複雑さと、最大5倍高速なトレーニングスループットと1.8倍低い評価レイテンシという、良好な精度と効率のトレードオフを実現している。
- 参考スコア(独自算出の注目度): 37.38708392928324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As long-context language modeling becomes increasingly important, the cost of maintaining and attending to large Key/Value (KV) caches grows rapidly, becoming a major bottleneck in both training and inference. While prior works such as Multi-Query Attention (MQA) and Multi-Latent Attention (MLA) reduce memory by sharing or compressing KV features, they often trade off representation quality or incur runtime overhead. We propose Memory-Keyed Attention (MKA), a hierarchical attention mechanism that integrates multi-level KV caches (local, session, and long-term) and learns to route attention across them dynamically. We further introduce Route-Fused MKA (FastMKA), a broadcast-routed variant that fuses memory sources before attention computation for improved efficiency. Experiments on different sequence lengths show that FastMKA achieves a favorable accuracy-efficiency trade-off: comparable perplexity to MLA while achieving up to 5x faster training throughput and 1.8x lower evaluation latency. These results highlight MKA as a practical and extensible framework for efficient long-context attention.
- Abstract(参考訳): 長期コンテキスト言語モデリングがますます重要になるにつれて、大規模なキー/バリュー(KV)キャッシュの維持と受け入れのコストは急速に増加し、トレーニングと推論の両方において大きなボトルネックとなっている。
従来のMQA(Multi-Query Attention)やMLA(Multi-Latent Attention)といった作業は、KV機能の共有や圧縮によってメモリを削減していた。
マルチレベルKVキャッシュ(ローカル,セッション,長期)を統合する階層型アテンション機構であるメモリキーアテンション(MKA)を提案する。
我々はさらに、注意計算の前にメモリソースを融合して効率を向上する放送汚染型であるRoute-Fused MKA (FastMKA)を紹介する。
異なるシーケンス長の実験では、FastMKAは、MLAに匹敵する複雑さと、最大5倍高速なトレーニングスループットと1.8倍低い評価レイテンシという、良好な精度と効率のトレードオフを実現している。
これらの結果から,MKAは長文を効果的に認識するための実用的で拡張可能なフレームワークとして注目されている。
関連論文リスト
- Multi-head Temporal Latent Attention [27.475917680869657]
キーバリューキャッシュを低ランクの潜在空間に圧縮するために、最近マルチヘッド潜時注意が開発された。
本稿では,時間次元に沿ったKVキャッシュサイズをより小さくするマルチヘッド時間遅延注意(MTLA)を提案する。
音声翻訳、音声認識、音声理解、テキスト要約などのタスクにわたる実験は、MTLAが競争性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-05-19T02:09:41Z) - Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM [7.651654889371008]
トランスフォーマーベースのモデルは現代の機械学習の基礎であるが、その実行はメモリシステムに大きな圧力をかける。
プロセッシング・イン・メモリ(PIM)アーキテクチャは、メモリ近傍で高い内部帯域幅と計算並列性を提供する、有望なソリューションである。
現在のPIM設計は、主に、KVキャッシュスパーシリティ技術によって導入された動的で不規則なアクセスパターンに対処するために最適化されている。
論文 参考訳(メタデータ) (2025-05-09T04:17:05Z) - ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [15.76582272387931]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。
ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文 参考訳(メタデータ) (2025-03-13T03:36:03Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。