Fugu-MT 論文翻訳(概要): Punica: Multi-Tenant LoRA Serving

論文の概要: Punica: Multi-Tenant LoRA Serving

arxiv url: http://arxiv.org/abs/2310.18547v1
Date: Sat, 28 Oct 2023 00:33:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 17:55:10.251133
Title: Punica: Multi-Tenant LoRA Serving
Title（参考訳）: punica:マルチテナントloraサービス
Authors: Lequn Chen (1), Zihao Ye (1), Yongji Wu (2), Danyang Zhuo (2), Luis Ceze (1), Arvind Krishnamurthy (1) ((1) University of Washington, (2) Duke University)
Abstract要約: 低ランクスケジューラ適応(LoRA)は、事前訓練されたモデルを特定のドメインに適応するための重要かつ一般的な手法となっている。我々は、共有GPUクラスタで複数のLoRAモデルを提供するシステムであるPunicaを紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Low-rank adaptation (LoRA) has become an important and popular method to adapt pre-trained models to specific domains. We present Punica, a system to serve multiple LoRA models in a shared GPU cluster. Punica contains a new CUDA kernel design that allows batching of GPU operations for different LoRA models. This allows a GPU to hold only a single copy of the underlying pre-trained model when serving multiple, different LoRA models, significantly enhancing GPU efficiency in terms of both memory and computation. Our scheduler consolidates multi-tenant LoRA serving workloads in a shared GPU cluster. With a fixed-sized GPU cluster, our evaluations show that Punica achieves 12x higher throughput in serving multiple LoRA models compared to state-of-the-art LLM serving systems while only adding 2ms latency per token. Punica is open source at https://github.com/punica-ai/punica .
Abstract（参考訳）: 低ランク適応(LoRA)は、特定のドメインに事前訓練されたモデルを適用するための重要かつ一般的な方法となっている。我々は、共有GPUクラスタで複数のLoRAモデルを提供するシステムであるPunicaを紹介する。 Punicaには、異なるLoRAモデルのGPU操作のバッチ化を可能にする新しいCUDAカーネル設計が含まれている。これにより、複数の異なるLoRAモデルを提供する場合、GPUは基礎となるトレーニング済みモデルのコピーのみを保持することができ、メモリと計算の両方の観点からGPU効率を大幅に向上する。スケジューラは、共有GPUクラスタでワークロードを提供するマルチテナントLoRAを統合します。固定サイズのgpuクラスタでは,複数のloraモデルに対して,トークン毎に2msのレイテンシを付加しながら,最先端のllmサービスシステムと比較して12倍のスループットを実現している。 punicaはhttps://github.com/punica-ai/punicaでオープンソースである。

関連論文リスト

LoRA Fine-Tuning Without GPUs: A CPU-Efficient Meta-Generation Framework for LLMs [8.397730500554047]
Low-Rank Adapters (LoRA) は、パラメータ効率の更新を可能にすることで、Large Language Models (LLM) の微調整を変革した。本稿では,限られた計算資源を持つユーザを対象としたLoRAファインタニング手法を提案する。
論文参考訳（メタデータ） (2025-07-02T15:24:47Z)
Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-24T05:24:41Z)
Practical offloading for fine-tuning LLM on commodity GPU via learned sparse projectors [11.127604539303373]
微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。このメモリ課題の一般的な解決策は、計算とデータをGPUからCPUにオフロードすることだ。本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP-Offload を提案する。
論文参考訳（メタデータ） (2024-06-14T16:59:11Z)
mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs [5.735411578779657]
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法で、ベースLSMを複数の下流タスクに適応させるのに使われる。 LoRAプラットフォームにより、開発者は複数のモデルを微調整し、さまざまなドメイン固有のアプリケーションを同時に開発できる。既存のモデル並列化スキームは、複数のLoRAタスクをトレーニングする際に、高い通信オーバーヘッドと非効率なGPU利用に悩まされる。
論文参考訳（メタデータ） (2023-12-05T05:38:38Z)
FedRA: A Random Allocation Strategy for Federated Tuning to Unleash the Power of Heterogeneous Clients [50.13097183691517]
実世界のフェデレーションシナリオでは、様々な計算と通信資源を持つ多種多様なクライアントが存在することが多い。本稿では,新しいフェデレーションチューニングアルゴリズムであるFedRAを提案する。各通信ラウンドにおいて、FedRAはランダムにアロケーション行列を生成する。アダプタを用いてアロケーション行列とファインチューンに基づいて、元のモデルから少数のレイヤを再編成する。
論文参考訳（メタデータ） (2023-11-19T04:43:16Z)
S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文参考訳（メタデータ） (2023-11-06T17:26:17Z)
LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition [44.13900539802629]
ローランク適応(LoRA)は、しばしば新しいタスクのために細調整された大きな言語モデル(LLM)に使用される。本稿では,多様なタスクで訓練されたLoRAモジュールの組み立てのためのフレームワークであるLoraHubを紹介する。新しいタスクからいくつか例を挙げると、LoraHubは複数のLoRAモジュールを流動的に結合することができ、人間の専門知識や前提を必要としない。
論文参考訳（メタデータ） (2023-07-25T05:39:21Z)
CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。 CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文参考訳（メタデータ） (2023-07-15T04:37:11Z)
Petals: Collaborative Inference and Fine-tuning of Large Models [78.37798144357977]
多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。 BLOOM-176BとOPT-175Bのリリースにより、誰もがこのスケールで事前訓練されたモデルをダウンロードできる。我々は,大規模モデルの推測と微調整を協調的に行うシステムとして,Petals $-$を提案する。
論文参考訳（メタデータ） (2022-09-02T17:38:03Z)
Multi-model Machine Learning Inference Serving with GPU Spatial Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-01T04:46:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。