論文の概要: Punica: Multi-Tenant LoRA Serving
- arxiv url: http://arxiv.org/abs/2310.18547v1
- Date: Sat, 28 Oct 2023 00:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 17:55:10.251133
- Title: Punica: Multi-Tenant LoRA Serving
- Title(参考訳): punica:マルチテナントloraサービス
- Authors: Lequn Chen (1), Zihao Ye (1), Yongji Wu (2), Danyang Zhuo (2), Luis
Ceze (1), Arvind Krishnamurthy (1) ((1) University of Washington, (2) Duke
University)
- Abstract要約: 低ランクスケジューラ適応(LoRA)は、事前訓練されたモデルを特定のドメインに適応するための重要かつ一般的な手法となっている。
我々は、共有GPUクラスタで複数のLoRAモデルを提供するシステムであるPunicaを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank adaptation (LoRA) has become an important and popular method to
adapt pre-trained models to specific domains. We present Punica, a system to
serve multiple LoRA models in a shared GPU cluster. Punica contains a new CUDA
kernel design that allows batching of GPU operations for different LoRA models.
This allows a GPU to hold only a single copy of the underlying pre-trained
model when serving multiple, different LoRA models, significantly enhancing GPU
efficiency in terms of both memory and computation. Our scheduler consolidates
multi-tenant LoRA serving workloads in a shared GPU cluster. With a fixed-sized
GPU cluster, our evaluations show that Punica achieves 12x higher throughput in
serving multiple LoRA models compared to state-of-the-art LLM serving systems
while only adding 2ms latency per token. Punica is open source at
https://github.com/punica-ai/punica .
- Abstract(参考訳): 低ランク適応(LoRA)は、特定のドメインに事前訓練されたモデルを適用するための重要かつ一般的な方法となっている。
我々は、共有GPUクラスタで複数のLoRAモデルを提供するシステムであるPunicaを紹介する。
Punicaには、異なるLoRAモデルのGPU操作のバッチ化を可能にする新しいCUDAカーネル設計が含まれている。
これにより、複数の異なるLoRAモデルを提供する場合、GPUは基礎となるトレーニング済みモデルのコピーのみを保持することができ、メモリと計算の両方の観点からGPU効率を大幅に向上する。
スケジューラは、共有GPUクラスタでワークロードを提供するマルチテナントLoRAを統合します。
固定サイズのgpuクラスタでは,複数のloraモデルに対して,トークン毎に2msのレイテンシを付加しながら,最先端のllmサービスシステムと比較して12倍のスループットを実現している。
punicaはhttps://github.com/punica-ai/punicaでオープンソースである。
関連論文リスト
- ASPEN: High-Throughput LoRA Fine-Tuning of Large Language Models with a
Single GPU [4.198627205271621]
本稿では,変圧器をベースとした大規模言語モデル(LLM)を微調整するフレームワークであるASPENを紹介する。
ASPENは、LoRAメソッドを使用して、1つのGPU上で複数のジョブを効率的にトレーニングし、共有事前学習モデルと適応スケジューリングを活用する。
実験によると、NVIDIA A100 80GB GPU上で複数のLLaMA-7Bモデルをトレーニングする場合、ASPENはGPUメモリの53%を節約している。
論文 参考訳(メタデータ) (2023-12-05T05:38:38Z) - FedRA: A Random Allocation Strategy for Federated Tuning to Unleash the
Power of Heterogeneous Clients [50.13097183691517]
実世界のフェデレーションシナリオでは、様々な計算と通信資源を持つ多種多様なクライアントが存在することが多い。
本稿では,新しいフェデレーションチューニングアルゴリズムであるFedRAを提案する。
各通信ラウンドにおいて、FedRAはランダムにアロケーション行列を生成する。
アダプタを用いてアロケーション行列とファインチューンに基づいて、元のモデルから少数のレイヤを再編成する。
論文 参考訳(メタデータ) (2023-11-19T04:43:16Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [61.089170968404204]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA
Composition [46.770388457085936]
ローランク適応(LoRA)は、しばしば新しいタスクのために細調整された大きな言語モデル(LLM)に使用される。
本稿では,多様なタスクで訓練されたLoRAモジュールの組み立てのためのフレームワークであるLoraHubを紹介する。
新しいタスクからいくつか例を挙げると、LoraHubは複数のLoRAモジュールを流動的に結合することができ、人間の専門知識や前提を必要としない。
論文 参考訳(メタデータ) (2023-07-25T05:39:21Z) - Computron: Serving Distributed Deep Learning Models with Model Parallel
Swapping [5.429059120074075]
言語や画像理解などの分野における今日の最も優れたディープラーニングモデルの多くは、数十億のパラメータを含んでいる。
共有GPUクラスタ上で複数の分散モデルを提供するためにメモリスワップを使用するシステムであるComputronを開発した。
論文 参考訳(メタデータ) (2023-06-24T01:38:23Z) - Scalable Collaborative Learning via Representation Sharing [53.047460465980144]
フェデレートラーニング(FL)とスプリットラーニング(SL)は、データを(デバイス上で)プライベートにしながら協調学習を可能にする2つのフレームワークである。
FLでは、各データ保持者がモデルをローカルにトレーニングし、集約のために中央サーバにリリースする。
SLでは、クライアントは個々のカット層アクティベーション(スマッシュされたデータ)をサーバにリリースし、そのレスポンス(推論とバックの伝搬の両方)を待つ必要があります。
本研究では, クライアントがオンライン知識蒸留を通じて, 対照的な損失を生かして協調する, プライバシ保護機械学習の新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-20T10:49:22Z) - Petals: Collaborative Inference and Fine-tuning of Large Models [78.37798144357977]
多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。
BLOOM-176BとOPT-175Bのリリースにより、誰もがこのスケールで事前訓練されたモデルをダウンロードできる。
我々は,大規模モデルの推測と微調整を協調的に行うシステムとして,Petals $-$を提案する。
論文 参考訳(メタデータ) (2022-09-02T17:38:03Z) - Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T04:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。