論文の概要: HGCA: Hybrid GPU-CPU Attention for Long Context LLM Inference
- arxiv url: http://arxiv.org/abs/2507.03153v1
- Date: Thu, 03 Jul 2025 20:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.598836
- Title: HGCA: Hybrid GPU-CPU Attention for Long Context LLM Inference
- Title(参考訳): HGCA:Long Context LLM推論のためのハイブリッドGPU-CPUアテンション
- Authors: Weishu Deng, Yujie Yang, Peiran Du, Lingfeng Xiang, Zhen Lin, Chen Zhong, Song Jiang, Hui Lu, Jia Rao,
- Abstract要約: 大規模言語モデルのためのハイブリッドCPU-GPUアテンション機構であるHGCAを提案する。
我々はHGCAが優れたスケーラビリティを実現し、より長いシーケンスとより大きなバッチサイズをサポートし、性能と正確性の両方において、既存の疎い注意基準よりも優れていることを示す。
さまざまなモデルとワークロードにわたる実験によると、HGCAは優れたスケーラビリティを実現し、長いシーケンスとより大きなバッチサイズをサポートし、パフォーマンスと正確性の両方において、既存のスパースアテンションベースラインを上回っている。
- 参考スコア(独自算出の注目度): 8.826966369389893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling inference for large language models (LLMs) is increasingly constrained by limited GPU memory, especially due to growing key-value (KV) caches required for long-context generation. While existing approaches offload KV caches to CPU memory or apply sparse attention to reduce GPU load, they often underutilize CPU compute resources and compromise accuracy. We present HGCA, a hybrid CPU-GPU attention mechanism that enables scalable, high-throughput LLM inference with near-full attention quality. HGCA performs dense attention on recently generated KV entries retained in GPU memory and parallel sparse attention on selected, salient KV entries in CPU memory. The attention outputs are efficiently merged using log-sum-exp fusion, minimizing PCIe transfer overhead. HGCA also introduces a finegrained, per-head sparsification strategy optimized for CPU execution, preserving contextual relevance while reducing computation. Our implementation seamlessly integrates into existing LLM frameworks without requiring model retraining. Experiments across diverse models and workloads show that HGCA achieves superior scalability, supports longer sequences and larger batch sizes, and outperforms existing sparse attention baselines in both performance and accuracy -- all on commodity GPU hardware.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリング推論は、特に長期コンテキスト生成に必要なキー値(KV)キャッシュの増加によって、GPUメモリの制限により、ますます制限されている。
既存のアプローチでは、KVキャッシュをCPUメモリにオフロードしたり、GPU負荷を減らすためにわずかな注意を払っている。
本稿では,HGCAを提案する。HGCA,HGCA,HGCA,HGCA,HGCA,CPU-GPUアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションアテンションア..
HGCAはGPUメモリに保持されている最近生成されたKVエントリに対して高い注意を払っており、CPUメモリ内の選択された正常なKVエントリに対して並列な注意を払っている。
注意出力はlog-sum-exp fusion を用いて効率よくマージされ、PCIe 転送オーバーヘッドを最小化する。
HGCAはまた、CPUの実行に最適化され、計算を減らしながらコンテキストの関連性を保存する、きめ細かい頭ごとのスペーシフィケーション戦略も導入している。
我々の実装は、モデルの再トレーニングを必要とせずに、既存のLLMフレームワークにシームレスに統合します。
さまざまなモデルとワークロードにわたる実験によると、HGCAは優れたスケーラビリティを実現し、長いシーケンスとより大きなバッチサイズをサポートし、パフォーマンスと正確性の両方において、すべてコモディティGPUハードウェアにおいて、既存の細かな注意ベースラインを上回っている。
関連論文リスト
- ScalableHD: Scalable and High-Throughput Hyperdimensional Computing Inference on Multi-Core CPUs [0.0]
ハイパーベクター(HV)という,高次元ベクトルを用いた情報表現と操作
従来のHDC法はシングルパスの非パラメトリックトレーニングに依存しており、しばしば低い精度で悩まされる。
しかし、推論は軽量であり、リアルタイム実行に適している。
論文 参考訳(メタデータ) (2025-06-10T22:46:12Z) - RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference [27.69137902678418]
RetroInferは、長文推論を加速するために固有の注意空間を利用する新しいシステムである。
KVキャッシュがCPUメモリに拡張された場合、GPUメモリリミット内では4.5倍のスピードアップと、スムーズなアテンションベースライン上で最大10.5倍のスピードアップを示します。
論文 参考訳(メタデータ) (2025-05-05T18:01:17Z) - Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰生成の性質は推論時に非効率な資源利用につながることが多い。
本稿では,DRAM帯域幅飽和が主なボトルネックとなっているため,大容量の推論がメモリバウンドのままであることを示す。
論文 参考訳(メタデータ) (2025-03-11T11:21:35Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial Recomputation [7.204881999658682]
キーバリューキャッシュは、大きな言語モデルの中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
既存の方法は、GPU計算をI/Oで重複させたり、CPU-GPUの不均一な実行を採用することで、これらの問題に対処しようとする。
本稿では,CPUが最初にアクティベーションの部分集合を転送する,効率的なI/O対応LPM推論手法であるKVPRを紹介する。
KVPRは、最先端のアプローチと比較して最大で35.8%のレイテンシと46.2%のスループットを実現している。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。