論文の概要: Punica: Multi-Tenant LoRA Serving
- arxiv url: http://arxiv.org/abs/2310.18547v1
- Date: Sat, 28 Oct 2023 00:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 17:55:10.251133
- Title: Punica: Multi-Tenant LoRA Serving
- Title(参考訳): punica:マルチテナントloraサービス
- Authors: Lequn Chen (1), Zihao Ye (1), Yongji Wu (2), Danyang Zhuo (2), Luis
Ceze (1), Arvind Krishnamurthy (1) ((1) University of Washington, (2) Duke
University)
- Abstract要約: 低ランクスケジューラ適応(LoRA)は、事前訓練されたモデルを特定のドメインに適応するための重要かつ一般的な手法となっている。
我々は、共有GPUクラスタで複数のLoRAモデルを提供するシステムであるPunicaを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank adaptation (LoRA) has become an important and popular method to
adapt pre-trained models to specific domains. We present Punica, a system to
serve multiple LoRA models in a shared GPU cluster. Punica contains a new CUDA
kernel design that allows batching of GPU operations for different LoRA models.
This allows a GPU to hold only a single copy of the underlying pre-trained
model when serving multiple, different LoRA models, significantly enhancing GPU
efficiency in terms of both memory and computation. Our scheduler consolidates
multi-tenant LoRA serving workloads in a shared GPU cluster. With a fixed-sized
GPU cluster, our evaluations show that Punica achieves 12x higher throughput in
serving multiple LoRA models compared to state-of-the-art LLM serving systems
while only adding 2ms latency per token. Punica is open source at
https://github.com/punica-ai/punica .
- Abstract(参考訳): 低ランク適応(LoRA)は、特定のドメインに事前訓練されたモデルを適用するための重要かつ一般的な方法となっている。
我々は、共有GPUクラスタで複数のLoRAモデルを提供するシステムであるPunicaを紹介する。
Punicaには、異なるLoRAモデルのGPU操作のバッチ化を可能にする新しいCUDAカーネル設計が含まれている。
これにより、複数の異なるLoRAモデルを提供する場合、GPUは基礎となるトレーニング済みモデルのコピーのみを保持することができ、メモリと計算の両方の観点からGPU効率を大幅に向上する。
スケジューラは、共有GPUクラスタでワークロードを提供するマルチテナントLoRAを統合します。
固定サイズのgpuクラスタでは,複数のloraモデルに対して,トークン毎に2msのレイテンシを付加しながら,最先端のllmサービスシステムと比較して12倍のスループットを実現している。
punicaはhttps://github.com/punica-ai/punicaでオープンソースである。
関連論文リスト
- Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs [5.735411578779657]
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法で、ベースLSMを複数の下流タスクに適応させるのに使われる。
LoRAプラットフォームにより、開発者は複数のモデルを微調整し、さまざまなドメイン固有のアプリケーションを同時に開発できる。
既存のモデル並列化スキームは、複数のLoRAタスクをトレーニングする際に、高い通信オーバーヘッドと非効率なGPU利用に悩まされる。
論文 参考訳(メタデータ) (2023-12-05T05:38:38Z) - FedRA: A Random Allocation Strategy for Federated Tuning to Unleash the
Power of Heterogeneous Clients [50.13097183691517]
実世界のフェデレーションシナリオでは、様々な計算と通信資源を持つ多種多様なクライアントが存在することが多い。
本稿では,新しいフェデレーションチューニングアルゴリズムであるFedRAを提案する。
各通信ラウンドにおいて、FedRAはランダムにアロケーション行列を生成する。
アダプタを用いてアロケーション行列とファインチューンに基づいて、元のモデルから少数のレイヤを再編成する。
論文 参考訳(メタデータ) (2023-11-19T04:43:16Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition [44.13900539802629]
ローランク適応(LoRA)は、しばしば新しいタスクのために細調整された大きな言語モデル(LLM)に使用される。
本稿では,多様なタスクで訓練されたLoRAモジュールの組み立てのためのフレームワークであるLoraHubを紹介する。
新しいタスクからいくつか例を挙げると、LoraHubは複数のLoRAモジュールを流動的に結合することができ、人間の専門知識や前提を必要としない。
論文 参考訳(メタデータ) (2023-07-25T05:39:21Z) - CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。
実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。
CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文 参考訳(メタデータ) (2023-07-15T04:37:11Z) - Petals: Collaborative Inference and Fine-tuning of Large Models [78.37798144357977]
多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。
BLOOM-176BとOPT-175Bのリリースにより、誰もがこのスケールで事前訓練されたモデルをダウンロードできる。
我々は,大規模モデルの推測と微調整を協調的に行うシステムとして,Petals $-$を提案する。
論文 参考訳(メタデータ) (2022-09-02T17:38:03Z) - Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T04:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。