Fugu-MT 論文翻訳(概要): HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading

論文の概要: HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading

arxiv url: http://arxiv.org/abs/2502.12574v1
Date: Tue, 18 Feb 2025 06:26:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.827243
Title: HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading
Title（参考訳）: HeadInfer: ヘッドワイドオフロードによるメモリ効率の良いLLM推論
Authors: Cheng Luo, Zefan Cai, Hanshi Sun, Jinqi Xiao, Bo Yuan, Wen Xiao, Junjie Hu, Jiawei Zhao, Beidi Chen, Anima Anandkumar,
Abstract要約: HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。 HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
参考スコア（独自算出の注目度）: 79.38548165722229
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based large language models (LLMs) demonstrate impressive performance in long context generation. Extending the context length has disproportionately shifted the memory footprint of LLMs during inference to the key-value cache (KV cache). In this paper, we propose HEADINFER, which offloads the KV cache to CPU RAM while avoiding the need to fully store the KV cache for any transformer layer on the GPU. HEADINFER employs a fine-grained, head-wise offloading strategy, maintaining only selective attention heads KV cache on the GPU while computing attention output dynamically. Through roofline analysis, we demonstrate that HEADINFER maintains computational efficiency while significantly reducing memory footprint. We evaluate HEADINFER on the Llama-3-8B model with a 1-million-token sequence, reducing the GPU memory footprint of the KV cache from 128 GB to 1 GB and the total GPU memory usage from 207 GB to 17 GB, achieving a 92% reduction compared to BF16 baseline inference. Notably, HEADINFER enables 4-million-token inference with an 8B model on a single consumer GPU with 24GB memory (e.g., NVIDIA RTX 4090) without approximation methods.
Abstract（参考訳）: 変換器をベースとした大規模言語モデル(LLM)は、長いコンテキスト生成において優れたパフォーマンスを示す。コンテキスト長の拡張は、推論中にLLMのメモリフットプリントをキー値キャッシュ(KVキャッシュ)に不均等にシフトさせた。本稿では,KV キャッシュを CPU RAM にオフロードする HEADINFER を提案する。 HEADINFERは、微粒で頭回りのオフロード戦略を採用し、GPU上の選択的アテンションヘッドKVキャッシュのみを維持しながら、動的にアテンション出力を計算している。屋上解析により,HEADINFERはメモリフットプリントを大幅に削減しつつ,計算効率を向上することを示した。我々は,Llama-3-8BモデルのHEADINFERを100万塩基配列で評価し,KVキャッシュのGPUメモリフットプリントを128GBから1GBに,GPUメモリ使用量を207GBから17GBに削減し,BF16ベースライン推定と比較して92%の削減を実現した。特に、HEADINFERは、近似メソッドなしで24GBメモリ(NVIDIA RTX 4090など)を持つ1つのコンシューマGPU上の8Bモデルで400万トークンの推論を可能にする。

関連論文リスト

Harvest: Opportunistic Peer-to-Peer GPU Caching for LLM Inference [0.0]
LLM(Large Language Model)推論は、計算スループットよりもGPUメモリ容量に制限されている。本稿では,高帯域幅のピアツーピアGPU相互接続を利用したGPUキャッシュ管理フレームワークであるHarvestを紹介する。本研究では、Harvestを用いて2つの広く使われている推論コンポーネントの検索を高速化することにより、2倍以上のスループットの大幅な高速化を示す。
論文参考訳（メタデータ） (2026-01-30T21:29:04Z)
GPU-Accelerated INT8 Quantization for KV Cache Compression in Large Language Models [0.0]
キー値(KV)キャッシュは、大きな言語モデルにおける推論中に重要なメモリボトルネックを示す。我々は、KVキャッシュ圧縮のためのINT8量子化を実装し、最小の精度で4$times$メモリ削減を実現した。
論文参考訳（メタデータ） (2026-01-08T08:35:56Z)
HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文参考訳（メタデータ） (2025-07-26T06:43:14Z)
CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文参考訳（メタデータ） (2025-06-23T17:50:11Z)
FairKV: Balancing Per-Head KV Cache for Fast Multi-GPU Inference [11.148691507097341]
TransformerモデルにおけるKVキャッシュ技術は、メモリ使用量を大幅に増加させ、冗長な計算を減らすことを目的としている。近年、最先端のKVキャッシュ圧縮手法では、各アテンションヘッドのKVキャッシュ予算を動的に調整する不均衡なヘッドアロケーションアルゴリズムが実装されている。本研究では,不均衡なKVキャッシュ圧縮を用いたシステムにおいて,アテンションヘッド間のメモリ使用量を確保するためのFair KVを提案する。
論文参考訳（メタデータ） (2025-02-19T06:14:27Z)
XKV: Personalized KV Cache Memory Reduction for Long-Context LLM Inference [9.65524177141491]
大規模言語モデル(LLM)推論は出力トークンを1つずつ生成し、多くの冗長な計算に繋がる。 KV-Cacheフレームワークは時間と空間の複雑さを妥協する。既存の研究では、推論精度に重要でないキャッシュデータの一部を削除することで、メモリ消費を減らすことができる。各レイヤのキャッシュサイズをパーソナライズしてカスタマイズすることで,メモリの大幅な削減が期待できることを示す。
論文参考訳（メタデータ） (2024-12-08T11:32:08Z)
Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文参考訳（メタデータ） (2024-12-02T06:57:46Z)
Efficient LLM Inference with I/O-Aware Partial KV Cache Recomputation [7.204881999658682]
大規模言語モデル(LLM)の推論は計算的に要求される。自動回帰デコーディングのコストを削減するため、キーバリュー(KV)キャッシングは中間アクティベーションを格納するために使用される。 KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。コスト効率のよい代替手段は、KVキャッシュをCPUメモリにオフロードすることであり、これはGPUメモリの圧力を軽減するが、ボトルネックをCPUとGPU間のPCIe接続の限られた帯域にシフトさせる。
論文参考訳（メタデータ） (2024-11-26T04:03:14Z)
ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference [25.638980944695728]
ShadowKVは、LLM(Long-Context Large Language Model)推論システムである。低ランクのキーキャッシュを格納し、バリューキャッシュをオフロードすることで、より大きなバッチサイズと長いシーケンスのためにメモリフットプリントを削減する。最大6$times$大きなバッチサイズをサポートし、A100 GPUで最大3.04$times$までスループットを向上できる。
論文参考訳（メタデータ） (2024-10-28T19:08:12Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。 PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文参考訳（メタデータ） (2024-05-21T06:46:37Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。