論文の概要: MoSKA: Mixture of Shared KV Attention for Efficient Long-Sequence LLM Inference
- arxiv url: http://arxiv.org/abs/2511.06010v1
- Date: Sat, 08 Nov 2025 13:40:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.707759
- Title: MoSKA: Mixture of Shared KV Attention for Efficient Long-Sequence LLM Inference
- Title(参考訳): MoSKA:効率的なLLM推論のための共有KVアテンションの混合
- Authors: Myunghyun Rhee, Sookyung Choi, Euiseok Kim, Joonseop Sim, Youngpyo Joo, Hoshik Kim,
- Abstract要約: LLM(Large Language Models)のエスカレーションコンテキスト長は、KeyValueキャッシュの周りにボトルネックを発生させる。
本稿では、コンテキストデータを活用することでこの問題に対処するアーキテクチャであるMixture of Shared KV Attention (MoSKA)を紹介する。
MoSKAは、共有データの注意を同時要求によって単一の計算バウンドに変換する、新しい共有KVアテンションメカニズムである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The escalating context length in Large Language Models (LLMs) creates a severe performance bottleneck around the Key-Value (KV) cache, whose memory-bound nature leads to significant GPU under-utilization. This paper introduces Mixture of Shared KV Attention (MoSKA), an architecture that addresses this challenge by exploiting the heterogeneity of context data. It differentiates between per-request unique and massively reused shared sequences. The core of MoSKA is a novel Shared KV Attention mechanism that transforms the attention on shared data from a series of memory-bound GEMV operations into a single, compute-bound GEMM by batching concurrent requests. This is supported by an MoE-inspired sparse attention strategy that prunes the search space and a tailored Disaggregated Infrastructure that specializes hardware for unique and shared data. This comprehensive approach demonstrates a throughput increase of up to 538.7x over baselines in workloads with high context sharing, offering a clear architectural path toward scalable LLM inference.
- Abstract(参考訳): LLM(Large Language Models)のエスカレーションコンテキスト長は、キーバリュー(KV)キャッシュに関する重大なパフォーマンスボトルネックを生じさせ、メモリバウンドの性質はGPUのアンダーユース化に大きく寄与する。
本稿では、コンテキストデータの均一性を利用してこの問題に対処するアーキテクチャであるMixture of Shared KV Attention (MoSKA)を紹介する。
リクエストごとのユニークなシーケンスと、大量に再利用された共有シーケンスを区別する。
MoSKAの中核は、共有データの注意を一連のメモリバウンドGEMV操作から、同時要求のバッチ化によって単一の計算バウンドGEMMに変換する、新しい共有KVアテンションメカニズムである。
これは、MoEにインスパイアされたスパースアテンション戦略によってサポートされ、検索スペースと、ユニークな共有データのためのハードウェアを専門とする、カスタマイズされた分離されたインフラストラクチャが特徴である。
この包括的なアプローチは、高いコンテキスト共有を備えたワークロードのベースラインよりも最大538.7倍のスループット向上を示し、スケーラブルなLLM推論への明確なアーキテクチャパスを提供する。
関連論文リスト
- Efficient Long-Context LLM Inference via KV Cache Clustering [25.995798911985847]
既存のアプローチは、将来の世代に必要な潜在的に重要な情報を破棄するか、高い計算オーバーヘッドのために限られた効率向上を提供するかのいずれかである。
我々はオンラインKVキャッシュクラスタリングのためのシンプルだが効果的なフレームワークであるChelseaを紹介した。
Chelseaは、同等のモデル性能を維持しながら、最大80%のKVキャッシュメモリ使用率の削減を実現している。
論文 参考訳(メタデータ) (2025-06-13T02:36:15Z) - Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM [7.651654889371008]
トランスフォーマーベースのモデルは現代の機械学習の基礎であるが、その実行はメモリシステムに大きな圧力をかける。
プロセッシング・イン・メモリ(PIM)アーキテクチャは、メモリ近傍で高い内部帯域幅と計算並列性を提供する、有望なソリューションである。
現在のPIM設計は、主に、KVキャッシュスパーシリティ技術によって導入された動的で不規則なアクセスパターンに対処するために最適化されている。
論文 参考訳(メタデータ) (2025-05-09T04:17:05Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - Inference-Friendly Models With MixAttention [7.103010772135246]
MixAttentionは、最近のトークンの小さなサブセットだけをKVキャッシュに格納するスライディングウィンドウアテンションと、レイヤ間のKVキャッシュ共有を組み合わせたものだ。
実験により,MixAttentionはメモリ使用量を大幅に削減し,短文タスクと長文タスクの両方においてモデル性能を犠牲にすることなく推論速度を向上することを示した。
論文 参考訳(メタデータ) (2024-09-23T13:37:25Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。