論文の概要: FlexLLM: A System for Co-Serving Large Language Model Inference and
Parameter-Efficient Finetuning
- arxiv url: http://arxiv.org/abs/2402.18789v1
- Date: Thu, 29 Feb 2024 01:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:21:37.652327
- Title: FlexLLM: A System for Co-Serving Large Language Model Inference and
Parameter-Efficient Finetuning
- Title(参考訳): flexllm: 大きな言語モデル推論とパラメータ効率の良い微調整を共用するシステム
- Authors: Xupeng Miao, Gabriele Oliaro, Xinhao Cheng, Mengdi Wu, Colin Unger,
Zhihao Jia
- Abstract要約: 既存のシステムは、推論とPEFTの微調整要求の混在を含むワークロードを処理できない。
同じイテレーションで推論およびパラメータ効率の良い微調整要求を処理できる最初のシステムであるFlexLLMを紹介します。
既存のシステムと比較して、FlexLLMの共サービスアプローチは、アクティベーションGPUメモリのオーバーヘッドを最大8倍、エンドツーエンドGPUメモリの要求を最大36%削減する。
- 参考スコア(独自算出の注目度): 9.979010592887096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient finetuning (PEFT) is a widely used technique to adapt
large language models for different tasks. Service providers typically create
separate systems for users to perform PEFT model finetuning and inference
tasks. This is because existing systems cannot handle workloads that include a
mix of inference and PEFT finetuning requests. As a result, shared GPU
resources are underutilized, leading to inefficiencies. To address this
problem, we present FlexLLM, the first system that can serve inference and
parameter-efficient finetuning requests in the same iteration. Our system
leverages the complementary nature of these two tasks and utilizes shared GPU
resources to run them jointly, using a method called co-serving. To achieve
this, FlexLLM introduces a novel token-level finetuning mechanism, which breaks
down the finetuning computation of a sequence into smaller token-level
computations and uses dependent parallelization and graph pruning, two static
compilation optimizations, to minimize the memory overhead and latency for
co-serving. Compared to existing systems, FlexLLM's co-serving approach reduces
the activation GPU memory overhead by up to 8x, and the end-to-end GPU memory
requirement of finetuning by up to 36% while maintaining a low inference
latency and improving finetuning throughput. For example, under a heavy
inference workload, FlexLLM can still preserve more than 80% of the peak
finetuning throughput, whereas existing systems cannot make any progress with
finetuning. The source code of FlexLLM is publicly available at
https://github.com/flexflow/FlexFlow.
- Abstract(参考訳): パラメータ効率ファインタニング(PEFT)は、大規模言語モデルを様々なタスクに適応させる手法として広く用いられている。
サービスプロバイダは通常、ユーザがPEFTモデルの微調整と推論タスクを実行するために別々のシステムを作成する。
これは、既存のシステムが推論とpeftの微調整要求の混合を含むワークロードを処理できないためである。
その結果、共有GPUリソースは未使用となり、非効率になる。
この問題を解決するため、flexllmは推論とパラメーター効率の良い微調整要求を同じイテレーションで処理できる最初のシステムである。
本システムは,これら2つのタスクの相補的な性質を活用し,共有GPUリソースを用いて協調動作を行う。
これを実現するためにflexllmは新しいトークンレベルの微調整機構を導入し、シーケンスの微調整をより小さなトークンレベルの計算に分解し、2つの静的コンパイル最適化である依存並列化とグラフプラニングを使用して、メモリのオーバーヘッドと待ち時間を最小化する。
既存のシステムと比較して、flexllmのco-servingアプローチは、アクティベーションgpuメモリのオーバヘッドを最大8倍削減し、エンドツーエンドのgpuメモリの微調整要件を最大36%削減するとともに、推論レイテンシの低減と微調整スループットの向上を実現している。
例えば、重い推論のワークロードの下では、flexllmはピークの微調整のスループットの80%以上を維持できるが、既存のシステムは微調整で何の進歩もできない。
FlexLLMのソースコードはhttps://github.com/flexflow/FlexFlowで公開されている。
関連論文リスト
- Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - Federated Learning with Flexible Control [30.65854375019346]
フェデレートラーニング(FL)は、ユーザが収集したローカルデータから分散モデルトレーニングを可能にする。
制約のあるリソースと潜在的に高いダイナミクスを持つ分散システムでは、例えばモバイルエッジネットワークでは、FLの効率が重要な問題である。
フレキシブルに調整可能な複数のオプションを持つFLアルゴリズムであるFlexFLを提案する。
論文 参考訳(メタデータ) (2022-12-16T14:21:29Z) - Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文 参考訳(メタデータ) (2022-06-07T15:20:20Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z) - Dynamic Parameter Allocation in Parameter Servers [74.250687861348]
本稿では,パラメータサーバに動的パラメータ割り当てを組み込んで,Lapse と呼ばれるパラメータサーバの効率的な実装を提案する。
Lapseはニアリニアなスケーリングを提供しており、既存のパラメータサーバよりも桁違いに高速であることがわかった。
論文 参考訳(メタデータ) (2020-02-03T11:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。