論文の概要: PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving
- arxiv url: http://arxiv.org/abs/2501.08192v2
- Date: Mon, 26 May 2025 07:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.164189
- Title: PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving
- Title(参考訳): PreSERVE:分散LLMサービングにおけるモデルウェイトとKVキャッシュのプレフェッチ
- Authors: Ahmet Caner Yüzügüler, Jiawei Zhuang, Lukas Cavigelli,
- Abstract要約: 大規模言語モデル(LLM)は通常、多数のデバイスで構成されるGPU/NPUのクラスタから提供される。
以前の作業では、計算との通信を重複させることでこの問題に対処していたが、これらの操作間のデータ依存関係のために厳しい制限が課された。
我々は,AIアクセラレータのオンチップキャッシュにオフチップメモリからモデルウェイトとKVキャッシュをプリセットする新しいフレームワークであるPreSERVEを提案する。
- 参考スコア(独自算出の注目度): 2.7309692684728613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are typically served from clusters of GPUs/NPUs that consist of large number of devices. Unfortunately, communication between these devices incurs significant overhead, increasing the inference latency and cost while limiting the scalability. Prior work addressed this issue by overlapping communication with compute, but has severe limitations due to the data dependencies between these operations. In this paper, we propose PRESERVE, a novel framework that prefetches model weights and KV-cache from off-chip HBM memory to the on-chip cache of AI accelerators during the communication operations, which offers various advantages and performance improvements compared to prior methods. Through extensive experiments conducted on commercial AI accelerators, we demonstrate up to 1.6x end-to-end speedup on state-of-the-art, open-source LLMs. Additionally, we perform a design space exploration that identifies the optimal hardware configuration for the proposed method, showing a further 1.25x improvement in performance per cost by selecting the optimal L2 cache size. Our results show that PRESERVE has the potential to mitigate the memory bottlenecks and communication overheads, offering a solution to improve the performance and scalability of the LLM inference systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、多数のデバイスで構成されるGPU/NPUのクラスタから提供される。
残念ながら、これらのデバイス間の通信は大きなオーバーヘッドを引き起こし、スケーラビリティを制限しながら、推論のレイテンシとコストを増大させる。
以前の作業では、計算との通信を重複させることでこの問題に対処していたが、これらの操作間のデータ依存関係のために厳しい制限が課された。
本稿では,AIアクセラレータのオンチップキャッシュへのオフチップHBMメモリからのモデルウェイトとKVキャッシュをプリセットした新しいフレームワークであるPreSERVEを提案する。
商用AIアクセラレータで実施された広範な実験を通じて、最先端のオープンソースのLCM上で、最大1.6倍のエンドツーエンドのスピードアップを実演する。
さらに,提案手法の最適ハードウェア構成を特定する設計空間探索を行い,最適L2キャッシュサイズを選択することにより,コスト毎の性能がさらに1.25倍向上したことを示す。
以上の結果から,PreSERVEはメモリボトルネックや通信オーバーヘッドを軽減し,LLM推論システムの性能とスケーラビリティを向上させるソリューションを提供する可能性が示唆された。
関連論文リスト
- IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。
IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文 参考訳(メタデータ) (2025-07-16T06:39:11Z) - Hybrid Systolic Array Accelerator with Optimized Dataflow for Edge Large Language Model Inference [8.475319961845903]
エッジアクセラレータは、高い領域効率を実現し、外部メモリアクセスを最小限にする。
本稿では,ハイブリッドシストリックアレイアーキテクチャを特徴とするエッジLLM推論アクセラレータを提案する。
我々のソリューションは、ロングインプット/ロングアウトプットのシナリオで1.3B LLMを実行しながら247/117 (token/s/mm2)を達成する。
論文 参考訳(メタデータ) (2025-07-11T20:27:30Z) - L3: DIMM-PIM Integrated Architecture and Coordination for Scalable Long-Context LLM Inference [6.886434948681708]
大きな言語モデル(LLM)では、長いテキストシーケンスの処理がますます必要になるが、GPUメモリの制限により、メモリ容量と帯域幅のトレードオフが困難になる。
重要なメモリボトルネックは、マルチヘッドアテンションの復号フェーズにある。
本稿では,DIMM-PIMとGPUデバイスを統合したハードウェア・ソフトウェア共同設計システムであるL3を提案する。
論文 参考訳(メタデータ) (2025-04-24T14:14:07Z) - Accelerating LLM Inference Throughput via Asynchronous KV Cache Prefetching [12.993197799897532]
大規模言語モデル(LLM)は、高帯域メモリ(HBM)帯域幅の制約により、推論中に顕著なメモリバウンド特性を示す。
本稿では,L2キャッシュ指向の非同期KVキャッシュプリフェッチ手法を提案する。
論文 参考訳(メタデータ) (2025-04-08T09:17:35Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。
モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。
本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - Highly Optimized Kernels and Fine-Grained Codebooks for LLM Inference on Arm CPUs [0.8217552831952]
大きな言語モデル(LLM)は、言語理解と生成に関する考え方を変えました。
LLM量子化によく使われるグループ量子化形式は、計算上のオーバーヘッドとリソース集約型量子化プロセスを持つ。
本稿では,LLMの超低精度量子化のためのグループワイド非一様符号ブックに基づく量子化手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T03:44:29Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - InstInfer: In-Storage Attention Offloading for Cost-Effective Long-Context LLM Inference [10.115950753431528]
大規模言語モデル(LLM)は、生成AIにおいて重要なマイルストーンである。
オフラインLLM推論におけるコンテキスト長とバッチサイズの増加は、キー値(KV)キャッシュのメモリ要求をエスカレートする。
いくつかのコスト効率の良いソリューションは、ホストメモリを利用するか、オフラインの推論シナリオのストレージコストを削減するよう最適化されている。
InstInferは、最も性能クリティカルな計算(つまり、復号フェーズにおける注意)とデータ(すなわちKVキャッシュ)を計算ストレージドライブ(CSD)にオフロードする。
InstInferがロングシーケンス推論のためのスループットを改善
論文 参考訳(メタデータ) (2024-09-08T06:06:44Z) - Efficient Large Foundation Models Design: A Perspective From Model and System Co-Design [34.12187517908856]
本稿では,基礎モデルに基づく現代的効率的なトレーニングと推論技術に焦点を当てる。
モデルとシステムデザイン 異なる側面からのトレーニングと推論を最適化し、計算資源を節約する。
論文 参考訳(メタデータ) (2024-09-03T15:35:01Z) - ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency [20.33467627548677]
大規模言語モデル(LLM)は人気が高まり、商用アプリケーションで広く使われている。
LLMサービスシステムにおいて、エンドツーエンドのレイテンシに影響を及ぼす大きなボトルネックを特定するために、詳細な分析を行う。
次に,資源効率の高いLLMサービスのための最適化システムであるScaleLLMを提案する。
論文 参考訳(メタデータ) (2024-07-23T23:37:29Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Inference Performance Optimization for Large Language Models on CPUs [4.7230692120532485]
大規模言語モデル(LLM)は、様々なタスクにまたがる優れたパフォーマンスと大きな潜在能力を示している。
GPUハードウェアリソースが限られている場合、CPU上の代替オプションを検討することができます。
本稿では,CPU上でのLCMの高速化を目的とした,容易にデプロイ可能な推論性能最適化ソリューションを提案する。
論文 参考訳(メタデータ) (2024-07-10T01:53:49Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。