論文の概要: DeltaZip: Multi-Tenant Language Model Serving via Delta Compression
- arxiv url: http://arxiv.org/abs/2312.05215v1
- Date: Fri, 8 Dec 2023 18:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 14:27:37.090246
- Title: DeltaZip: Multi-Tenant Language Model Serving via Delta Compression
- Title(参考訳): DeltaZip: Delta Compressionを通じたマルチテナント言語モデル
- Authors: Xiaozhe Yao, Ana Klimovic
- Abstract要約: 本稿では,複数の微調整モデルの並列処理を効率的に行うLLMサービスシステムDeltaZipを提案する。
DeltaZipは、サービススループットを1.5times$から3times$に向上し、バニラHuggingFaceサービスシステムと比較してSLOの達成率を改善する。
- 参考スコア(独自算出の注目度): 0.479814360045118
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fine-tuning large language models (LLMs) for downstream tasks can greatly
improve model quality, however serving many different fine-tuned LLMs
concurrently for users in multi-tenant environments is challenging. Dedicating
GPU memory for each model is prohibitively expensive and naively swapping large
model weights in and out of GPU memory is slow. Our key insight is that
fine-tuned models can be quickly swapped in and out of GPU memory by extracting
and compressing the delta between each model and its pre-trained base model. We
propose DeltaZip, an LLM serving system that efficiently serves multiple
full-parameter fine-tuned models concurrently by aggressively compressing model
deltas by a factor of $6\times$ to $8\times$ while maintaining high model
quality. DeltaZip increases serving throughput by $1.5\times$ to $3\times$ and
improves SLO attainment compared to a vanilla HuggingFace serving system.
- Abstract(参考訳): 下流タスクのための細調整大型言語モデル(LLM)は、モデル品質を大幅に改善するが、マルチテナント環境のユーザに対して、多数の細調整LDMを同時に提供することは困難である。
モデル毎のGPUメモリの指定は極めて高価であり、GPUメモリの内外にある大きなモデルの重みを取り替えるのは遅い。
キーとなる洞察は、各モデルとトレーニング済みベースモデルの間のデルタを抽出し圧縮することで、微調整されたモデルをGPUメモリ内と外部に素早く交換できるということです。
モデルデルタを高いモデル品質を維持しつつ、6-times$から8-times$の係数でアグレッシブに圧縮することで、複数のフルパラメータの微調整モデルを同時に効率的に提供するLLMサービスシステムDeltaZipを提案する。
DeltaZipは、サービススループットを1.5\times$から3\times$に向上し、バニラHuggingFaceサービスシステムと比較してSLOの達成率を改善する。
関連論文リスト
- BARE: Combining Base and Instruction-Tuned Language Models for Better Synthetic Data Generation [71.46236155101032]
本研究では,ベースモデルの多様性とインストラクション学習モデルの品質を組み合わせた合成データ生成手法であるBase-Refineを提案する。
BARE生成データによる微調整は, GSM8Kの命令のみのデータよりも101%, RAFTのSOTA法より18.4%向上することを示す。
論文 参考訳(メタデータ) (2025-02-03T00:12:40Z) - Mamba-Shedder: Post-Transformer Compression for Efficient Selective Structured State Space Models [1.8434042562191815]
本稿では,SSMモデル,特にMambaとそのハイブリッドモデルの圧縮について検討する。
本研究では, モデルサイズと計算オーバーヘッドを低減し, 精度を保ちながら効率を向上させるため, 選択した成分を異なる粒度で除去する際の感度について検討する。
提案手法は,総称してMamba-Shedderと呼ばれ,モデル性能への影響を最小限に抑えることで,モデル効率を最大1.4倍に向上できることを示す。
論文 参考訳(メタデータ) (2025-01-28T17:22:01Z) - DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization [17.501956455837707]
大規模言語モデルは、教師付き微調整により、様々な下流タスクにおいて例外的なパフォーマンスを達成する。
デルタ重量を圧縮する現在の方法は超高圧縮を達成するのに苦労している。
デルタ重みの超高圧縮を実現するために,分布駆動型デルタ圧縮フレームワークデルタDQを提案する。
論文 参考訳(メタデータ) (2024-10-11T09:44:16Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。
実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。
その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文 参考訳(メタデータ) (2023-05-12T00:55:41Z) - ZipLM: Inference-Aware Structured Pruning of Language Models [56.52030193434863]
ZipLMと呼ばれる大規模言語モデル(LLM)に対する新しい構造化圧縮手法を提案する。
ZipLMは、所望のランタイムスピードアップのセットをマッチングしながら、最先端の精度-vs-スピードアップを実現する。
ZipLMはすべての設定で最先端の圧縮モデルを生成する。
論文 参考訳(メタデータ) (2023-02-07T18:55:28Z) - Multi-stage Progressive Compression of Conformer Transducer for
On-device Speech Recognition [7.450574974954803]
スマートデバイスにおける小さなメモリ帯域幅は、より小さな自動音声認識(ASR)モデルの開発を促す。
知識蒸留(KD)は、より小さなモデルサイズを達成するための一般的なモデル圧縮手法である。
KDを用いてコンバータトランスデューサモデルを圧縮する多段階プログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-01T02:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。