Fugu-MT 論文翻訳(概要): DeltaZip: Multi-Tenant Language Model Serving via Delta Compression

論文の概要: DeltaZip: Multi-Tenant Language Model Serving via Delta Compression

arxiv url: http://arxiv.org/abs/2312.05215v1
Date: Fri, 8 Dec 2023 18:07:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 14:27:37.090246
Title: DeltaZip: Multi-Tenant Language Model Serving via Delta Compression
Title（参考訳）: DeltaZip: Delta Compressionを通じたマルチテナント言語モデル
Authors: Xiaozhe Yao, Ana Klimovic
Abstract要約: 本稿では,複数の微調整モデルの並列処理を効率的に行うLLMサービスシステムDeltaZipを提案する。 DeltaZipは、サービススループットを1.5times$から3times$に向上し、バニラHuggingFaceサービスシステムと比較してSLOの達成率を改善する。
参考スコア（独自算出の注目度）: 0.479814360045118
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Fine-tuning large language models (LLMs) for downstream tasks can greatly improve model quality, however serving many different fine-tuned LLMs concurrently for users in multi-tenant environments is challenging. Dedicating GPU memory for each model is prohibitively expensive and naively swapping large model weights in and out of GPU memory is slow. Our key insight is that fine-tuned models can be quickly swapped in and out of GPU memory by extracting and compressing the delta between each model and its pre-trained base model. We propose DeltaZip, an LLM serving system that efficiently serves multiple full-parameter fine-tuned models concurrently by aggressively compressing model deltas by a factor of $6\times$ to $8\times$ while maintaining high model quality. DeltaZip increases serving throughput by $1.5\times$ to $3\times$ and improves SLO attainment compared to a vanilla HuggingFace serving system.
Abstract（参考訳）: 下流タスクのための細調整大型言語モデル(LLM)は、モデル品質を大幅に改善するが、マルチテナント環境のユーザに対して、多数の細調整LDMを同時に提供することは困難である。モデル毎のGPUメモリの指定は極めて高価であり、GPUメモリの内外にある大きなモデルの重みを取り替えるのは遅い。キーとなる洞察は、各モデルとトレーニング済みベースモデルの間のデルタを抽出し圧縮することで、微調整されたモデルをGPUメモリ内と外部に素早く交換できるということです。モデルデルタを高いモデル品質を維持しつつ、6-times$から8-times$の係数でアグレッシブに圧縮することで、複数のフルパラメータの微調整モデルを同時に効率的に提供するLLMサービスシステムDeltaZipを提案する。 DeltaZipは、サービススループットを1.5\times$から3\times$に向上し、バニラHuggingFaceサービスシステムと比較してSLOの達成率を改善する。

関連論文リスト

GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching [41.96482857947199]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。 LLMは通常、相当なモデルサイズを持ち、デプロイメントと推論において大きな課題をもたらします。そこで我々は, モデルモデルから層を戦略的に組み合わせたり, マージしたりすることで, モデルを圧縮するための新しい戦略を開発した。
論文参考訳（メタデータ） (2025-06-25T14:24:59Z)
ADAMIX: Adaptive Mixed-Precision Delta-Compression with Quantization Error Optimization for Large Language Models [14.975251449732175]
大規模言語モデル(LLM)は、様々な知識集約的かつ複雑な推論タスクにおいて印象的なパフォーマンスを達成する。最近の研究は、カスタマイズされたLLMと対応するベースモデルの間のデルタパラメータの定量化と圧縮のためのデルタ圧縮アプローチを探求している。効果的な適応型混合精度デルタ圧縮フレームワークであるADAmixを提案する。
論文参考訳（メタデータ） (2025-06-05T08:17:12Z)
Dynamic Base model Shift for Delta Compression [53.505380509713575]
デルタ圧縮はデルタパラメータの冗長性を減少させることでコスト削減を試みる。既存のメソッドはデフォルトでベースモデルとして事前訓練されたモデルを使用し、各タスクのデルタパラメータを圧縮する。デルタ圧縮を行う前にベースモデルを対象タスクに動的に適応させる動的ベースモデルシフト(DBMS)を提案する。
論文参考訳（メタデータ） (2025-05-16T15:11:19Z)
RanDeS: Randomized Delta Superposition for Multi-Model Compression [35.84370778415708]
モデルマージを圧縮・検索方式として再構成し、モデル検索中に無関係なデルタの和からタスクの干渉が発生することを示した。このアプローチは、視覚的タスクと言語タスクの両方において、干渉を大幅に低減し、パフォーマンスを向上することを示す。
論文参考訳（メタデータ） (2025-05-16T13:02:12Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Mamba-Shedder: Post-Transformer Compression for Efficient Selective Structured State Space Models [1.8434042562191815]
本稿では,SSMモデル,特にMambaとそのハイブリッドモデルの圧縮について検討する。本研究では, モデルサイズと計算オーバーヘッドを低減し, 精度を保ちながら効率を向上させるため, 選択した成分を異なる粒度で除去する際の感度について検討する。提案手法は,総称してMamba-Shedderと呼ばれ,モデル性能への影響を最小限に抑えることで,モデル効率を最大1.4倍に向上できることを示す。
論文参考訳（メタデータ） (2025-01-28T17:22:01Z)
DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization [17.501956455837707]
大規模言語モデルは、教師付き微調整により、様々な下流タスクにおいて例外的なパフォーマンスを達成する。デルタ重量を圧縮する現在の方法は超高圧縮を達成するのに苦労している。デルタ重みの超高圧縮を実現するために,分布駆動型デルタ圧縮フレームワークデルタDQを提案する。
論文参考訳（メタデータ） (2024-10-11T09:44:16Z)
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
適応スパーストレーナー(AST)と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。 ASTは、モデルがトレーニングプロセスを通して適応的にマスクを選択することを可能にし、マスキング重みに減衰を施すことにより、密度の高いモデルをスパースモデルに変換する。本研究は,半構造化されたスパース言語モデルの実現可能性を示し,高度に圧縮されたモデルを実現するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-30T06:33:44Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
BitDelta: Your Fine-Tune May Only Be Worth One Bit [57.558376557639555]
大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減する。
論文参考訳（メタデータ） (2024-02-15T18:50:06Z)
Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-17T20:45:13Z)
MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文参考訳（メタデータ） (2023-05-12T00:55:41Z)
ZipLM: Inference-Aware Structured Pruning of Language Models [56.52030193434863]
ZipLMと呼ばれる大規模言語モデル(LLM)に対する新しい構造化圧縮手法を提案する。 ZipLMは、所望のランタイムスピードアップのセットをマッチングしながら、最先端の精度-vs-スピードアップを実現する。 ZipLMはすべての設定で最先端の圧縮モデルを生成する。
論文参考訳（メタデータ） (2023-02-07T18:55:28Z)
Multi-stage Progressive Compression of Conformer Transducer for On-device Speech Recognition [7.450574974954803]
スマートデバイスにおける小さなメモリ帯域幅は、より小さな自動音声認識(ASR)モデルの開発を促す。知識蒸留(KD)は、より小さなモデルサイズを達成するための一般的なモデル圧縮手法である。 KDを用いてコンバータトランスデューサモデルを圧縮する多段階プログレッシブアプローチを提案する。
論文参考訳（メタデータ） (2022-10-01T02:23:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。