論文の概要: S-LoRA: Serving Thousands of Concurrent LoRA Adapters
- arxiv url: http://arxiv.org/abs/2311.03285v2
- Date: Tue, 7 Nov 2023 06:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 12:26:25.866269
- Title: S-LoRA: Serving Thousands of Concurrent LoRA Adapters
- Title(参考訳): S-LoRA: 数千の同時LoRAアダプタ
- Authors: Ying Sheng, Shiyi Cao, Dacheng Li, Coleman Hooper, Nicholas Lee, Shuo
Yang, Christopher Chou, Banghua Zhu, Lianmin Zheng, Kurt Keutzer, Joseph E.
Gonzalez, Ion Stoica
- Abstract要約: パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
- 参考スコア(独自算出の注目度): 61.089170968404204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The "pretrain-then-finetune" paradigm is commonly adopted in the deployment
of large language models. Low-Rank Adaptation (LoRA), a parameter-efficient
fine-tuning method, is often employed to adapt a base model to a multitude of
tasks, resulting in a substantial collection of LoRA adapters derived from one
base model. We observe that this paradigm presents significant opportunities
for batched inference during serving. To capitalize on these opportunities, we
present S-LoRA, a system designed for the scalable serving of many LoRA
adapters. S-LoRA stores all adapters in the main memory and fetches the
adapters used by the currently running queries to the GPU memory. To
efficiently use the GPU memory and reduce fragmentation, S-LoRA proposes
Unified Paging. Unified Paging uses a unified memory pool to manage dynamic
adapter weights with different ranks and KV cache tensors with varying sequence
lengths. Additionally, S-LoRA employs a novel tensor parallelism strategy and
highly optimized custom CUDA kernels for heterogeneous batching of LoRA
computation. Collectively, these features enable S-LoRA to serve thousands of
LoRA adapters on a single GPU or across multiple GPUs with a small overhead.
Compared to state-of-the-art libraries such as HuggingFace PEFT and vLLM (with
naive support of LoRA serving), S-LoRA can improve the throughput by up to 4
times and increase the number of served adapters by several orders of
magnitude. As a result, S-LoRA enables scalable serving of many task-specific
fine-tuned models and offers the potential for large-scale customized
fine-tuning services. The code is available at https://github.com/S-LoRA/S-LoRA
- Abstract(参考訳): Pretrain-then-finetune"パラダイムは、大きな言語モデルのデプロイに一般的に採用されている。
パラメータ効率の良い微調整法であるローランク適応法(lora)は、多くのタスクにベースモデルを適用するためにしばしば用いられ、結果として1つのベースモデルから派生したloraアダプタのかなりのコレクションとなる。
我々は,このパラダイムが提供中のバッチ推論に重要な機会をもたらすことを観察した。
これらの機会を生かして,多くのLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
S-LoRAはすべてのアダプタをメインメモリに格納し、現在実行中のクエリが使用するアダプタをGPUメモリにフェッチする。
GPUメモリを効率的に使用し、フラグメンテーションを低減するため、S-LoRAはUnified Pagingを提案する。
Unified Pagingは統一メモリプールを使用して、異なるランクの動的アダプタウェイトと異なるシーケンス長のKVキャッシュテンソルを管理する。
さらに、S-LoRAは、新しいテンソル並列化戦略と高度に最適化されたカスタムCUDAカーネルを用いて、LoRA計算の不均一なバッチ処理を行う。
これらの機能により、S-LoRAは単一のGPUまたは複数のGPU上で数千のLoRAアダプタを提供することができる。
HuggingFace PEFTやvLLMのような最先端のライブラリと比較すると、S-LoRAはスループットを最大4倍改善し、サービスアダプタの数を桁違いに増やすことができる。
その結果、S-LoRAは多くのタスク固有の細調整されたモデルのスケーラブルな提供を可能にし、大規模にカスタマイズされた細調整サービスの可能性を秘めている。
コードはhttps://github.com/S-LoRA/S-LoRAで公開されている。
関連論文リスト
- LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead [41.31302904190149]
低ランク適応(LoRA)を用いた微調整型大規模言語モデルが一般的となっている。
本稿では,LoRA固有のスケーリング行列と組み合わせた共有ベースにLoRAを共同圧縮する手法を提案する。
最大500台のLoRAによる実験では、圧縮されたLoRAは大きなスループット向上を提供しながら性能を保っていることが示されている。
論文 参考訳(メタデータ) (2024-06-17T15:21:35Z) - LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters [11.23006032094776]
トレーニング可能なパラメータを格段に削減し,優れた性能と競争性能を示すLoRA-XSを提案する。
LoRA-XSは、LoRAと比較して、トレーニング可能なパラメータを7Bモデルで100倍以上削減する。
論文 参考訳(メタデータ) (2024-05-27T19:07:13Z) - LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report [3.304521604464247]
ローランク適応(ローランク適応、LoRA)は、最も広く採用されている手法の一つである。
大規模言語モデル(LLM)の効率的な微細チューニング(PEFT)
本研究の目的は,LoRAで微調整されたLLMを実世界の応用に適用し,学習の可能性を評価することである。
論文 参考訳(メタデータ) (2024-04-29T04:01:45Z) - LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative
Tasks [72.88244322513039]
LoRAは、ダウンストリームタスクやドメイン毎に大きな言語モデル(LLM)をカスタマイズするために軽量モジュールを使用している。
動的重みを利用して異なるLoRAの影響を調整するLoRA-Flowを提案する。
6つの生成タスクに対する実験により、我々の手法はタスクレベルの融合重みでベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-02-18T04:41:25Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs [5.735411578779657]
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法で、ベースLSMを複数の下流タスクに適応させるのに使われる。
LoRAプラットフォームにより、開発者は複数のモデルを微調整し、さまざまなドメイン固有のアプリケーションを同時に開発できる。
既存のモデル並列化スキームは、複数のLoRAタスクをトレーニングする際に、高い通信オーバーヘッドと非効率なGPU利用に悩まされる。
論文 参考訳(メタデータ) (2023-12-05T05:38:38Z) - CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。
実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。
CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文 参考訳(メタデータ) (2023-07-15T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。