論文の概要: ServerlessLoRA: Minimizing Latency and Cost in Serverless Inference for LoRA-Based LLMs
- arxiv url: http://arxiv.org/abs/2505.14468v1
- Date: Tue, 20 May 2025 15:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.448622
- Title: ServerlessLoRA: Minimizing Latency and Cost in Serverless Inference for LoRA-Based LLMs
- Title(参考訳): ServerlessLoRA: LoRAベースのLLMのサーバレス推論におけるレイテンシとコストの最小化
- Authors: Yifan Sui, Hao Wang, Hanfei Yu, Yitao Hu, Jianxun Li, Hao Wang,
- Abstract要約: 現在のサーバレスは、LLM(General Large Language Model)を効果的に利用できますが、LoRA(Lo-Rank Adaptation)推論では失敗します。
これらの非効率さは、大量のGPUの浪費、TTFT(Time-to-First-Token)の増加、高い金銭的コストをもたらす。
より高速で安価なLoRA LLMサービス用に設計されたサーバーレス推論システムであるServerlessLoRAを提案する。
- 参考スコア(独自算出の注目度): 6.907528479144716
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Serverless computing has grown rapidly for serving Large Language Model (LLM) inference due to its pay-as-you-go pricing, fine-grained GPU usage, and rapid scaling. However, our analysis reveals that current serverless can effectively serve general LLM but fail with Low-Rank Adaptation (LoRA) inference due to three key limitations: 1) massive parameter redundancy among functions where 99% of weights are unnecessarily duplicated, 2) costly artifact loading latency beyond LLM loading, and 3) magnified resource contention when serving multiple LoRA LLMs. These inefficiencies lead to massive GPU wastage, increased Time-To-First-Token (TTFT), and high monetary costs. We propose ServerlessLoRA, a novel serverless inference system designed for faster and cheaper LoRA LLM serving. ServerlessLoRA enables secure backbone LLM sharing across isolated LoRA functions to reduce redundancy. We design a pre-loading method that pre-loads comprehensive LoRA artifacts to minimize cold-start latency. Furthermore, ServerlessLoRA employs contention aware batching and offloading to mitigate GPU resource conflicts during bursty workloads. Experiment on industrial workloads demonstrates that ServerlessLoRA reduces TTFT by up to 86% and cuts monetary costs by up to 89% compared to state-of-the-art LLM inference solutions.
- Abstract(参考訳): サーバーレスコンピューティングは、従量制の価格、きめ細かいGPU使用量、高速スケーリングのために、LLM(Large Language Model)推論を提供するために急速に成長している。
しかしながら、我々の分析によると、現在のサーバレスは、一般的なLLMを効果的に利用できるが、3つの重要な制限があるため、ローランド適応(LoRA)推論では失敗する。
1)重みの99%が必然的に重複する機能間の大きなパラメータ冗長性。
2) LLM 負荷を超えるコストのかかるアーティファクト負荷待ち時間,
3)複数の LoRA LLM を提供する場合の資源競合は増大する。
これらの非効率さは、大量のGPUの浪費、TTFT(Time-to-First-Token)の増加、高い金銭的コストをもたらす。
より高速で安価なLoRA LLMサービス用に設計されたサーバーレス推論システムであるServerlessLoRAを提案する。
ServerlessLoRAは、分離されたLoRA関数間でセキュアなバックボーンLLM共有を可能にし、冗長性を低減する。
コールドスタート遅延を最小限に抑えるために,包括的LoRAアーティファクトをプリロードするプリロード手法を設計する。
さらに、ServerlessLoRAでは、バーストワークロード中のGPUリソースの競合を軽減するために、競合を意識したバッチ処理とオフロードを採用している。
産業ワークロードの実験では、ServerlessLoRAはTTFTを最大86%削減し、最先端のLLM推論ソリューションと比較して、金銭コストを最大89%削減している。
関連論文リスト
- Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - Empower Vision Applications with LoRA LMM [32.37720746437661]
低ランク適応(LoRA)は、外部知識を大規模言語モデル(LMM)に統合する有望な方法を提供する
既存のLoRAモデルは計算コストが大きすぎるため、非常にレイテンシが高い。
多様なビジョンタスクの強化とLoRA LMMによるビジョンアプリケーション強化を目的としたエンドツーエンドソリューションを提案する。
論文 参考訳(メタデータ) (2024-11-01T13:43:33Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report [3.304521604464247]
ローランク適応(ローランク適応、LoRA)は、最も広く採用されている手法の一つである。
大規模言語モデル(LLM)の効率的な微細チューニング(PEFT)
本研究の目的は,LoRAで微調整されたLLMを実世界の応用に適用し,学習の可能性を評価することである。
論文 参考訳(メタデータ) (2024-04-29T04:01:45Z) - mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs [5.735411578779657]
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法で、ベースLSMを複数の下流タスクに適応させるのに使われる。
LoRAプラットフォームにより、開発者は複数のモデルを微調整し、さまざまなドメイン固有のアプリケーションを同時に開発できる。
既存のモデル並列化スキームは、複数のLoRAタスクをトレーニングする際に、高い通信オーバーヘッドと非効率なGPU利用に悩まされる。
論文 参考訳(メタデータ) (2023-12-05T05:38:38Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。
実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。
CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文 参考訳(メタデータ) (2023-07-15T04:37:11Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。