論文の概要: DeltaZip: Multi-Tenant Language Model Serving via Delta Compression
- arxiv url: http://arxiv.org/abs/2312.05215v1
- Date: Fri, 8 Dec 2023 18:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 14:27:37.090246
- Title: DeltaZip: Multi-Tenant Language Model Serving via Delta Compression
- Title(参考訳): DeltaZip: Delta Compressionを通じたマルチテナント言語モデル
- Authors: Xiaozhe Yao, Ana Klimovic
- Abstract要約: 本稿では,複数の微調整モデルの並列処理を効率的に行うLLMサービスシステムDeltaZipを提案する。
DeltaZipは、サービススループットを1.5times$から3times$に向上し、バニラHuggingFaceサービスシステムと比較してSLOの達成率を改善する。
- 参考スコア(独自算出の注目度): 0.479814360045118
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fine-tuning large language models (LLMs) for downstream tasks can greatly
improve model quality, however serving many different fine-tuned LLMs
concurrently for users in multi-tenant environments is challenging. Dedicating
GPU memory for each model is prohibitively expensive and naively swapping large
model weights in and out of GPU memory is slow. Our key insight is that
fine-tuned models can be quickly swapped in and out of GPU memory by extracting
and compressing the delta between each model and its pre-trained base model. We
propose DeltaZip, an LLM serving system that efficiently serves multiple
full-parameter fine-tuned models concurrently by aggressively compressing model
deltas by a factor of $6\times$ to $8\times$ while maintaining high model
quality. DeltaZip increases serving throughput by $1.5\times$ to $3\times$ and
improves SLO attainment compared to a vanilla HuggingFace serving system.
- Abstract(参考訳): 下流タスクのための細調整大型言語モデル(LLM)は、モデル品質を大幅に改善するが、マルチテナント環境のユーザに対して、多数の細調整LDMを同時に提供することは困難である。
モデル毎のGPUメモリの指定は極めて高価であり、GPUメモリの内外にある大きなモデルの重みを取り替えるのは遅い。
キーとなる洞察は、各モデルとトレーニング済みベースモデルの間のデルタを抽出し圧縮することで、微調整されたモデルをGPUメモリ内と外部に素早く交換できるということです。
モデルデルタを高いモデル品質を維持しつつ、6-times$から8-times$の係数でアグレッシブに圧縮することで、複数のフルパラメータの微調整モデルを同時に効率的に提供するLLMサービスシステムDeltaZipを提案する。
DeltaZipは、サービススループットを1.5\times$から3\times$に向上し、バニラHuggingFaceサービスシステムと比較してSLOの達成率を改善する。
関連論文リスト
- Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - When Do We Not Need Larger Vision Models? [55.957626371697785]
視覚モデルのサイズを拡大することが、より強力な視覚表現を得るためのデファクトスタンダードとなっている。
S$2のScaling on Scales(スケーリング・オン・スケール)のパワーを実演します。
1行のコードで任意のビジョンモデルにS$2$を適用可能なPythonパッケージをリリースします。
論文 参考訳(メタデータ) (2024-03-19T17:58:39Z) - BitDelta: Your Fine-Tune May Only Be Worth One Bit [60.44468282930883]
大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。
我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。
複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減する。
論文 参考訳(メタデータ) (2024-02-15T18:50:06Z) - Herd: Using multiple, smaller LLMs to match the performances of
proprietary, large LLMs via an intelligent composer [1.0878040851637998]
オープンソースモデルの群れは、インテリジェントルータを介して、プロプライエタリなモデルのパフォーマンスに適合または超えることができることを示す。
GPTがクエリに答えられない場合、Herdは少なくとも40%の確率でモデルを特定できる。
論文 参考訳(メタデータ) (2023-10-30T18:11:02Z) - Computron: Serving Distributed Deep Learning Models with Model Parallel
Swapping [5.429059120074075]
言語や画像理解などの分野における今日の最も優れたディープラーニングモデルの多くは、数十億のパラメータを含んでいる。
共有GPUクラスタ上で複数の分散モデルを提供するためにメモリスワップを使用するシステムであるComputronを開発した。
論文 参考訳(メタデータ) (2023-06-24T01:38:23Z) - ZipLM: Inference-Aware Structured Pruning of Language Models [56.52030193434863]
ZipLMと呼ばれる大規模言語モデル(LLM)に対する新しい構造化圧縮手法を提案する。
ZipLMは、所望のランタイムスピードアップのセットをマッチングしながら、最先端の精度-vs-スピードアップを実現する。
ZipLMはすべての設定で最先端の圧縮モデルを生成する。
論文 参考訳(メタデータ) (2023-02-07T18:55:28Z) - Petals: Collaborative Inference and Fine-tuning of Large Models [78.37798144357977]
多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。
BLOOM-176BとOPT-175Bのリリースにより、誰もがこのスケールで事前訓練されたモデルをダウンロードできる。
我々は,大規模モデルの推測と微調整を協調的に行うシステムとして,Petals $-$を提案する。
論文 参考訳(メタデータ) (2022-09-02T17:38:03Z) - Hydra: A System for Large Multi-Model Deep Learning [3.571623412954477]
本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。
次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。
実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
論文 参考訳(メタデータ) (2021-10-16T18:13:57Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。