論文の概要: Improving the Serving Performance of Multi-LoRA Large Language Models via Efficient LoRA and KV Cache Management
- arxiv url: http://arxiv.org/abs/2505.03756v1
- Date: Sat, 19 Apr 2025 13:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-11 11:26:45.197181
- Title: Improving the Serving Performance of Multi-LoRA Large Language Models via Efficient LoRA and KV Cache Management
- Title(参考訳): 効率的なLoRAとKVキャッシュ管理によるマルチロラ大言語モデルの実行性能の向上
- Authors: Hang Zhang, Jiuchen Shi, Yixiao Wang, Quan Chen, Yizhou Shan, Minyi Guo,
- Abstract要約: タスク固有のLarge Language Model (LLM)アプリケーションでは、複数の低ランクアダプタ(Multi-LoRA)が人気を集めている。
既存のマルチロラ推論システムは、TTFT(Time-to-First-Toke)のようなサービス性能の最適化に失敗する
FASTLIBRAは、依存性を意識したキャッシュマネージャと、パフォーマンス駆動型キャッシュスワッパーを備える。
- 参考スコア(独自算出の注目度): 13.327937177980969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple Low-Rank Adapters (Multi-LoRAs) are gaining popularity for task-specific Large Language Model (LLM) applications. For multi-LoRA serving, caching hot KV caches and LoRA adapters in high bandwidth memory of accelerations can improve inference performance. However, existing Multi-LoRA inference systems fail to optimize serving performance like Time-To-First-Toke (TTFT), neglecting usage dependencies when caching LoRAs and KVs. We therefore propose FASTLIBRA, a Multi-LoRA caching system to optimize the serving performance. FASTLIBRA comprises a dependency-aware cache manager and a performance-driven cache swapper. The cache manager maintains the usage dependencies between LoRAs and KV caches during the inference with a unified caching pool. The cache swapper determines the swap-in or out of LoRAs and KV caches based on a unified cost model, when the HBM is idle or busy, respectively. Experimental results show that ELORA reduces the TTFT by 63.4% on average, compared to state-of-the-art works.
- Abstract(参考訳): タスク固有のLarge Language Model (LLM)アプリケーションでは、複数の低ランクアダプタ(Multi-LoRA)が人気を集めている。
マルチLoRAサービスでは、高速なKVキャッシュとLoRAアダプタを高速な帯域幅でキャッシュすることで、推論性能を向上させることができる。
しかし、既存のMulti-LoRA推論システムは、TTFT(Time-To-First-Toke)のようなサービス性能の最適化に失敗し、LoRAやKVをキャッシュする際の利用依存を無視した。
そこで本稿では,サービス性能を最適化するマルチロラキャッシングシステムであるFASTLIBRAを提案する。
FASTLIBRAは、依存性を意識したキャッシュマネージャと、パフォーマンス駆動型キャッシュスワッパーを備える。
キャッシュマネージャは、統一されたキャッシュプールによる推論中にLoRAとKVキャッシュ間の利用依存性を維持する。
キャッシュスワッパは、それぞれHBMがアイドルまたは忙しいときに、統一コストモデルに基づいてLoRAおよびKVキャッシュのスワップインまたはアウトを決定する。
実験の結果,ELORAは最先端の作業に比べてTTFTを平均63.4%削減することがわかった。
関連論文リスト
- Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs [5.02504911036896]
最近の大規模言語モデル(LLM)は、入力コンテキストの長さとモデルサイズが大きくなるにつれて、推論遅延が増加する。
本稿では,ディスクベースのキー値(KV)キャッシュを利用して,プリフィル時の計算負担を軽減することによるTTFT削減手法を提案する。
また、マルチインスタンスLLM RAGサービス環境のためのディスクベースの共有KVキャッシュ管理システムであるShared RAG-DCacheを導入する。
論文 参考訳(メタデータ) (2025-04-16T04:59:18Z) - A Generative Caching System for Large Language Models [1.2132389187658934]
キャッシングは、大きな言語モデル(LLM)にアクセスする上で、大きなメリットをもたらす可能性がある。
本稿では,LLMを用いたユーザエクスペリエンス向上のための新しいキャッシングシステムを提案する。
生成キャッシングでは、複数のキャッシュされたレスポンスを合成して、これまで見たことのないクエリに対する回答を提供することができます。
論文 参考訳(メタデータ) (2025-03-22T01:17:56Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。
実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。
CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文 参考訳(メタデータ) (2023-07-15T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。