Fugu-MT 論文翻訳(概要): Improving the Serving Performance of Multi-LoRA Large Language Models via Efficient LoRA and KV Cache Management

論文の概要: Improving the Serving Performance of Multi-LoRA Large Language Models via Efficient LoRA and KV Cache Management

arxiv url: http://arxiv.org/abs/2505.03756v1
Date: Sat, 19 Apr 2025 13:17:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-11 11:26:45.197181
Title: Improving the Serving Performance of Multi-LoRA Large Language Models via Efficient LoRA and KV Cache Management
Title（参考訳）: 効率的なLoRAとKVキャッシュ管理によるマルチロラ大言語モデルの実行性能の向上
Authors: Hang Zhang, Jiuchen Shi, Yixiao Wang, Quan Chen, Yizhou Shan, Minyi Guo,
Abstract要約: タスク固有のLarge Language Model (LLM)アプリケーションでは、複数の低ランクアダプタ(Multi-LoRA)が人気を集めている。既存のマルチロラ推論システムは、TTFT(Time-to-First-Toke)のようなサービス性能の最適化に失敗する FASTLIBRAは、依存性を意識したキャッシュマネージャと、パフォーマンス駆動型キャッシュスワッパーを備える。
参考スコア（独自算出の注目度）: 13.327937177980969
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multiple Low-Rank Adapters (Multi-LoRAs) are gaining popularity for task-specific Large Language Model (LLM) applications. For multi-LoRA serving, caching hot KV caches and LoRA adapters in high bandwidth memory of accelerations can improve inference performance. However, existing Multi-LoRA inference systems fail to optimize serving performance like Time-To-First-Toke (TTFT), neglecting usage dependencies when caching LoRAs and KVs. We therefore propose FASTLIBRA, a Multi-LoRA caching system to optimize the serving performance. FASTLIBRA comprises a dependency-aware cache manager and a performance-driven cache swapper. The cache manager maintains the usage dependencies between LoRAs and KV caches during the inference with a unified caching pool. The cache swapper determines the swap-in or out of LoRAs and KV caches based on a unified cost model, when the HBM is idle or busy, respectively. Experimental results show that ELORA reduces the TTFT by 63.4% on average, compared to state-of-the-art works.
Abstract（参考訳）: タスク固有のLarge Language Model (LLM)アプリケーションでは、複数の低ランクアダプタ(Multi-LoRA)が人気を集めている。マルチLoRAサービスでは、高速なKVキャッシュとLoRAアダプタを高速な帯域幅でキャッシュすることで、推論性能を向上させることができる。しかし、既存のMulti-LoRA推論システムは、TTFT(Time-To-First-Toke)のようなサービス性能の最適化に失敗し、LoRAやKVをキャッシュする際の利用依存を無視した。そこで本稿では,サービス性能を最適化するマルチロラキャッシングシステムであるFASTLIBRAを提案する。 FASTLIBRAは、依存性を意識したキャッシュマネージャと、パフォーマンス駆動型キャッシュスワッパーを備える。キャッシュマネージャは、統一されたキャッシュプールによる推論中にLoRAとKVキャッシュ間の利用依存性を維持する。キャッシュスワッパは、それぞれHBMがアイドルまたは忙しいときに、統一コストモデルに基づいてLoRAおよびKVキャッシュのスワップインまたはアウトを決定する。実験の結果,ELORAは最先端の作業に比べてTTFTを平均63.4%削減することがわかった。

関連論文リスト

LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs [5.02504911036896]
最近の大規模言語モデル(LLM)は、入力コンテキストの長さとモデルサイズが大きくなるにつれて、推論遅延が増加する。本稿では,ディスクベースのキー値(KV)キャッシュを利用して,プリフィル時の計算負担を軽減することによるTTFT削減手法を提案する。また、マルチインスタンスLLM RAGサービス環境のためのディスクベースの共有KVキャッシュ管理システムであるShared RAG-DCacheを導入する。
論文参考訳（メタデータ） (2025-04-16T04:59:18Z)
A Generative Caching System for Large Language Models [1.2132389187658934]
キャッシングは、大きな言語モデル(LLM)にアクセスする上で、大きなメリットをもたらす可能性がある。本稿では,LLMを用いたユーザエクスペリエンス向上のための新しいキャッシングシステムを提案する。生成キャッシングでは、複数のキャッシュされたレスポンスを合成して、これまで見たことのないクエリに対する回答を提供することができます。
論文参考訳（メタデータ） (2025-03-22T01:17:56Z)
InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。 LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文参考訳（メタデータ） (2024-10-27T22:57:12Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文参考訳（メタデータ） (2023-11-06T17:26:17Z)
CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。 CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文参考訳（メタデータ） (2023-07-15T04:37:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。