Fugu-MT 論文翻訳(概要): InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference

論文の概要: InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference

arxiv url: http://arxiv.org/abs/2409.04992v1
Date: Sun, 8 Sep 2024 06:06:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 19:40:10.006298
Title: InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference
Title（参考訳）: InstInfer: コスト効果の長いLLM推論のためのIn-Storage Attention Offloading
Authors: Xiurui Pan, Endian Li, Qiao Li, Shengwen Liang, Yizhou Shan, Ke Zhou, Yingwei Luo, Xiaolin Wang, Jie Zhang,
Abstract要約: 大規模言語モデル(LLM)は、生成AIにおいて重要なマイルストーンである。オフラインLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求をエスカレートする。いくつかのコスト効率の良いソリューションは、ホストメモリを利用するか、オフラインの推論シナリオのストレージコストを削減するよう最適化されている。 InstInferは、最も性能クリティカルな計算(つまり、復号フェーズにおける注意)とデータ(すなわちKVキャッシュ)を計算ストレージドライブ(CSD)にオフロードする。 InstInferがロングシーケンス推論のためのスループットを改善
参考スコア（独自算出の注目度）: 10.115950753431528
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The widespread of Large Language Models (LLMs) marks a significant milestone in generative AI. Nevertheless, the increasing context length and batch size in offline LLM inference escalate the memory requirement of the key-value (KV) cache, which imposes a huge burden on the GPU VRAM, especially for resource-constraint scenarios (e.g., edge computing and personal devices). Several cost-effective solutions leverage host memory or SSDs to reduce storage costs for offline inference scenarios and improve the throughput. Nevertheless, they suffer from significant performance penalties imposed by intensive KV cache accesses due to limited PCIe bandwidth. To address these issues, we propose InstInfer, a novel LLM inference system that offloads the most performance-critical computation (i.e., attention in decoding phase) and data (i.e., KV cache) parts to Computational Storage Drives (CSDs), which minimize the enormous KV transfer overheads. InstInfer designs a dedicated flash-aware in-storage attention engine with KV cache management mechanisms to exploit the high internal bandwidths of CSDs instead of being limited by the PCIe bandwidth. The optimized P2P transmission between GPU and CSDs further reduces data migration overheads. Experimental results demonstrate that for a 13B model using an NVIDIA A6000 GPU, InstInfer improves throughput for long-sequence inference by up to 11.1$\times$, compared to existing SSD-based solutions such as FlexGen.
Abstract（参考訳）: LLM(Large Language Models)の普及は、ジェネレーティブAIにおいて重要なマイルストーンとなる。それでも、オフラインのLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求を増大させ、特にリソース制約シナリオ(エッジコンピューティングやパーソナルデバイスなど)においてGPU VRAMに大きな負担をかけることになる。いくつかのコスト効率の良いソリューションは、ホストメモリまたはSSDを活用して、オフライン推論シナリオのストレージコストを削減し、スループットを向上させる。それでも、PCIe帯域幅の制限により、集中的なKVキャッシュアクセスによって課される大幅なパフォーマンス上のペナルティに悩まされている。これらの問題に対処するため,計算ストレージドライブ(CSD)に最も性能クリティカルな計算(復号フェーズにおける注意)とデータ(KVキャッシュ)をオフロードする新しいLLM推論システムであるInstInferを提案し,KV転送オーバーヘッドを最小化する。 InstInferは、KVキャッシュ管理機構を備えた専用のフラッシュ対応インストレージアテンションエンジンを設計した。 GPUとCSD間の最適化されたP2P伝送により、データのマイグレーションオーバーヘッドはさらに削減される。実験結果によると、NVIDIA A6000 GPUを使用した13Bモデルでは、InstInferはFlexGenのような既存のSSDベースのソリューションと比較して、時系列推論のスループットを最大11.1$\times$に改善している。

関連論文リスト

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
HGCA: Hybrid GPU-CPU Attention for Long Context LLM Inference [8.826966369389893]
大規模言語モデルのためのハイブリッドCPU-GPUアテンション機構であるHGCAを提案する。我々はHGCAが優れたスケーラビリティを実現し、より長いシーケンスとより大きなバッチサイズをサポートし、性能と正確性の両方において、既存の疎い注意基準よりも優れていることを示す。さまざまなモデルとワークロードにわたる実験によると、HGCAは優れたスケーラビリティを実現し、長いシーケンスとより大きなバッチサイズをサポートし、パフォーマンスと正確性の両方において、既存のスパースアテンションベースラインを上回っている。
論文参考訳（メタデータ） (2025-07-03T20:20:33Z)
Breaking the Boundaries of Long-Context LLM Inference: Adaptive KV Management on a Single Commodity GPU [23.168435940997664]
本稿では,1つのコモディティGPUのためのLLM推論システムLeoAMについて述べる。我々のシステムは,KVデータを可変サイズのチャンクに分割する適応的なKV管理戦略を採用している。また,全KVデータではなく,ディスク上の各チャンクのKV抽象を格納・抽出することで,伝送遅延を最小限に抑える軽量なKV抽象手法を提案する。
論文参考訳（メタデータ） (2025-06-25T07:26:42Z)
RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference [27.69137902678418]
RetroInferは、長文推論を加速するために固有の注意空間を利用する新しいシステムである。 KVキャッシュがCPUメモリに拡張された場合、GPUメモリリミット内では4.5倍のスピードアップと、スムーズなアテンションベースライン上で最大10.5倍のスピードアップを示します。
論文参考訳（メタデータ） (2025-05-05T18:01:17Z)
Cost-Efficient LLM Serving in the Cloud: VM Selection with KV Cache Offloading [5.504316753767555]
本稿では,クラウドベースのLLM推論のための費用効率の高いVM選択フレームワークであるInferSaveを提案する。 InferSaveはService Level Objectives(SLO)とWorkload charac teristicsに基づいてKVキャッシュのオフロードを最適化する。 AWSの実験によると、KVキャッシュのオフロードなしで低コストのインスタンスを選択することで、オンラインワークロードのコスト効率が最大73.7%向上する。
論文参考訳（メタデータ） (2025-04-16T07:02:38Z)
Accelerating LLM Inference Throughput via Asynchronous KV Cache Prefetching [12.993197799897532]
大規模言語モデル(LLM)は、高帯域メモリ(HBM)帯域幅の制約により、推論中に顕著なメモリバウンド特性を示す。本稿では,L2キャッシュ指向の非同期KVキャッシュプリフェッチ手法を提案する。
論文参考訳（メタデータ） (2025-04-08T09:17:35Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving [2.7309692684728613]
大規模言語モデル(LLM)は通常、多数のデバイスで構成されるGPU/NPUのクラスタから提供される。以前の作業では、計算との通信を重複させることでこの問題に対処していたが、これらの操作間のデータ依存関係のために厳しい制限が課された。我々は,AIアクセラレータのオンチップキャッシュにオフチップメモリからモデルウェイトとKVキャッシュをプリセットする新しいフレームワークであるPreSERVEを提案する。
論文参考訳（メタデータ） (2025-01-14T15:14:10Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference [25.638980944695728]
ShadowKVは、LLM(Long-Context Large Language Model)推論システムである。低ランクのキーキャッシュを格納し、バリューキャッシュをオフロードすることで、より大きなバッチサイズと長いシーケンスのためにメモリフットプリントを削減する。最大6$times$大きなバッチサイズをサポートし、A100 GPUで最大3.04$times$までスループットを向上できる。
論文参考訳（メタデータ） (2024-10-28T19:08:12Z)
Harnessing Your DRAM and SSD for Sustainable and Accessible LLM Inference with Mixed-Precision and Multi-level Caching [35.83447642182576]
大規模言語モデル(LLM)は目覚ましい能力を示している。 LLMの展開は、現在のAIアプリケーションから排出される二酸化炭素の主要な部分である。本稿では,古いハードウェア上でのLCM推論を可能にするモデルモジュール化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-17T08:33:39Z)
Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。 Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文参考訳（メタデータ） (2024-10-04T01:11:09Z)
Locret: Enhancing Eviction in Long-Context LLM Inference with Trained Retaining Heads [30.690302709678758]
Locretは、単一のNvidia 4090 GPU上でのLLM推論のためのフレームワークである。推論中、チャンクされたプリフィルパターンとともに低重要キャッシュユニットを排除し、GPUのピークメモリ使用量を大幅に削減した。我々の知る限り、Locretは単一のNvidia 4090 GPU上にLlama-3.1-8Bまたは同様のモデルをデプロイできる最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-02T17:59:52Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
UpDLRM: Accelerating Personalized Recommendation using Real-World PIM Architecture [6.5386984667643695]
UpDLRMは、実際のプロセッシングインメモリハードウェアであるUPPMEM DPUを使用して、メモリ帯域幅を拡大し、レコメンデーションレイテンシを低減する。 UpDLRMは、CPU専用とCPU-GPUハイブリッドの両方と比較してDLRMの推論時間を大幅に短縮する。
論文参考訳（メタデータ） (2024-06-20T02:20:21Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。