論文の概要: InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference
- arxiv url: http://arxiv.org/abs/2409.04992v1
- Date: Sun, 8 Sep 2024 06:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 19:40:10.006298
- Title: InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference
- Title(参考訳): InstInfer: コスト効果の長いLLM推論のためのIn-Storage Attention Offloading
- Authors: Xiurui Pan, Endian Li, Qiao Li, Shengwen Liang, Yizhou Shan, Ke Zhou, Yingwei Luo, Xiaolin Wang, Jie Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、生成AIにおいて重要なマイルストーンである。
オフラインLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求をエスカレートする。
いくつかのコスト効率の良いソリューションは、ホストメモリを利用するか、オフラインの推論シナリオのストレージコストを削減するよう最適化されている。
InstInferは、最も性能クリティカルな計算(つまり、復号フェーズにおける注意)とデータ(すなわちKVキャッシュ)を計算ストレージドライブ(CSD)にオフロードする。
InstInferがロングシーケンス推論のためのスループットを改善
- 参考スコア(独自算出の注目度): 10.115950753431528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread of Large Language Models (LLMs) marks a significant milestone in generative AI. Nevertheless, the increasing context length and batch size in offline LLM inference escalate the memory requirement of the key-value (KV) cache, which imposes a huge burden on the GPU VRAM, especially for resource-constraint scenarios (e.g., edge computing and personal devices). Several cost-effective solutions leverage host memory or SSDs to reduce storage costs for offline inference scenarios and improve the throughput. Nevertheless, they suffer from significant performance penalties imposed by intensive KV cache accesses due to limited PCIe bandwidth. To address these issues, we propose InstInfer, a novel LLM inference system that offloads the most performance-critical computation (i.e., attention in decoding phase) and data (i.e., KV cache) parts to Computational Storage Drives (CSDs), which minimize the enormous KV transfer overheads. InstInfer designs a dedicated flash-aware in-storage attention engine with KV cache management mechanisms to exploit the high internal bandwidths of CSDs instead of being limited by the PCIe bandwidth. The optimized P2P transmission between GPU and CSDs further reduces data migration overheads. Experimental results demonstrate that for a 13B model using an NVIDIA A6000 GPU, InstInfer improves throughput for long-sequence inference by up to 11.1$\times$, compared to existing SSD-based solutions such as FlexGen.
- Abstract(参考訳): LLM(Large Language Models)の普及は、ジェネレーティブAIにおいて重要なマイルストーンとなる。
それでも、オフラインのLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求を増大させ、特にリソース制約シナリオ(エッジコンピューティングやパーソナルデバイスなど)においてGPU VRAMに大きな負担をかけることになる。
いくつかのコスト効率の良いソリューションは、ホストメモリまたはSSDを活用して、オフライン推論シナリオのストレージコストを削減し、スループットを向上させる。
それでも、PCIe帯域幅の制限により、集中的なKVキャッシュアクセスによって課される大幅なパフォーマンス上のペナルティに悩まされている。
これらの問題に対処するため,計算ストレージドライブ(CSD)に最も性能クリティカルな計算(復号フェーズにおける注意)とデータ(KVキャッシュ)をオフロードする新しいLLM推論システムであるInstInferを提案し,KV転送オーバーヘッドを最小化する。
InstInferは、KVキャッシュ管理機構を備えた専用のフラッシュ対応インストレージアテンションエンジンを設計した。
GPUとCSD間の最適化されたP2P伝送により、データのマイグレーションオーバーヘッドはさらに削減される。
実験結果によると、NVIDIA A6000 GPUを使用した13Bモデルでは、InstInferはFlexGenのような既存のSSDベースのソリューションと比較して、時系列推論のスループットを最大11.1$\times$に改善している。
関連論文リスト
- HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving [2.7309692684728613]
大規模言語モデル (LLMs) は様々なアプリケーションで広く使われているが、その相当な計算要求は大きな課題を生んでいる。
モデル重みに対するメモリリードとKVキャッシュを重畳してLLM推論を最適化する新しいプレフェッチフレームワークであるPreSERVEについて述べる。
論文 参考訳(メタデータ) (2025-01-14T15:14:10Z) - XKV: Personalized KV Cache Memory Reduction for Long-Context LLM Inference [9.65524177141491]
大規模言語モデル(LLM)推論は出力トークンを1つずつ生成し、多くの冗長な計算に繋がる。
KV-Cacheフレームワークは時間と空間の複雑さを妥協する。
既存の研究では、推論精度に重要でないキャッシュデータの一部を削除することで、メモリ消費を減らすことができる。
各レイヤのキャッシュサイズをパーソナライズしてカスタマイズすることで,メモリの大幅な削減が期待できることを示す。
論文 参考訳(メタデータ) (2024-12-08T11:32:08Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - Harnessing Your DRAM and SSD for Sustainable and Accessible LLM Inference with Mixed-Precision and Multi-level Caching [35.83447642182576]
大規模言語モデル(LLM)は目覚ましい能力を示している。
LLMの展開は、現在のAIアプリケーションから排出される二酸化炭素の主要な部分である。
本稿では,古いハードウェア上でのLCM推論を可能にするモデルモジュール化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:33:39Z) - Locret: Enhancing Eviction in Long-Context LLM Inference with Trained Retaining Heads on Consumer-Grade Devices [30.690302709678758]
Locretは、チャンクされたプリフィルと互換性のある退行ポリシーを作成するための最初のフレームワークである。
Locretは最大20倍のKVキャッシュ圧縮比を10%未満の性能損失で達成できることを示す。
また、Locretは1つのNVIDIA 4090 GPU上で128K以上の長コンテキスト推論を、生成品質を損なうことなく達成していることを示す。
論文 参考訳(メタデータ) (2024-10-02T17:59:52Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。