Fugu-MT 論文翻訳(概要): FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning

論文の概要: FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning

arxiv url: http://arxiv.org/abs/2402.18789v1
Date: Thu, 29 Feb 2024 01:33:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 16:21:37.652327
Title: FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning
Title（参考訳）: flexllm: 大きな言語モデル推論とパラメータ効率の良い微調整を共用するシステム
Authors: Xupeng Miao, Gabriele Oliaro, Xinhao Cheng, Mengdi Wu, Colin Unger, Zhihao Jia
Abstract要約: 既存のシステムは、推論とPEFTの微調整要求の混在を含むワークロードを処理できない。同じイテレーションで推論およびパラメータ効率の良い微調整要求を処理できる最初のシステムであるFlexLLMを紹介します。既存のシステムと比較して、FlexLLMの共サービスアプローチは、アクティベーションGPUメモリのオーバーヘッドを最大8倍、エンドツーエンドGPUメモリの要求を最大36%削減する。
参考スコア（独自算出の注目度）: 9.979010592887096
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Parameter-efficient finetuning (PEFT) is a widely used technique to adapt large language models for different tasks. Service providers typically create separate systems for users to perform PEFT model finetuning and inference tasks. This is because existing systems cannot handle workloads that include a mix of inference and PEFT finetuning requests. As a result, shared GPU resources are underutilized, leading to inefficiencies. To address this problem, we present FlexLLM, the first system that can serve inference and parameter-efficient finetuning requests in the same iteration. Our system leverages the complementary nature of these two tasks and utilizes shared GPU resources to run them jointly, using a method called co-serving. To achieve this, FlexLLM introduces a novel token-level finetuning mechanism, which breaks down the finetuning computation of a sequence into smaller token-level computations and uses dependent parallelization and graph pruning, two static compilation optimizations, to minimize the memory overhead and latency for co-serving. Compared to existing systems, FlexLLM's co-serving approach reduces the activation GPU memory overhead by up to 8x, and the end-to-end GPU memory requirement of finetuning by up to 36% while maintaining a low inference latency and improving finetuning throughput. For example, under a heavy inference workload, FlexLLM can still preserve more than 80% of the peak finetuning throughput, whereas existing systems cannot make any progress with finetuning. The source code of FlexLLM is publicly available at https://github.com/flexflow/FlexFlow.
Abstract（参考訳）: パラメータ効率ファインタニング(PEFT)は、大規模言語モデルを様々なタスクに適応させる手法として広く用いられている。サービスプロバイダは通常、ユーザがPEFTモデルの微調整と推論タスクを実行するために別々のシステムを作成する。これは、既存のシステムが推論とpeftの微調整要求の混合を含むワークロードを処理できないためである。その結果、共有GPUリソースは未使用となり、非効率になる。この問題を解決するため、flexllmは推論とパラメーター効率の良い微調整要求を同じイテレーションで処理できる最初のシステムである。本システムは,これら2つのタスクの相補的な性質を活用し,共有GPUリソースを用いて協調動作を行う。これを実現するためにflexllmは新しいトークンレベルの微調整機構を導入し、シーケンスの微調整をより小さなトークンレベルの計算に分解し、2つの静的コンパイル最適化である依存並列化とグラフプラニングを使用して、メモリのオーバーヘッドと待ち時間を最小化する。既存のシステムと比較して、flexllmのco-servingアプローチは、アクティベーションgpuメモリのオーバヘッドを最大8倍削減し、エンドツーエンドのgpuメモリの微調整要件を最大36%削減するとともに、推論レイテンシの低減と微調整スループットの向上を実現している。例えば、重い推論のワークロードの下では、flexllmはピークの微調整のスループットの80%以上を維持できるが、既存のシステムは微調整で何の進歩もできない。 FlexLLMのソースコードはhttps://github.com/flexflow/FlexFlowで公開されている。

関連論文リスト

FlexQ: Efficient Post-training INT6 Quantization for LLM Serving via Algorithm-System Co-Design [18.37843481770631]
大規模言語モデル(LLM)は例外的な性能を示すが、かなりのメモリと計算コストを必要とする。既存のINT4/INT8量子化はこれらのコストを削減するが、しばしば精度を低下させるか、最適効率を欠く。アルゴリズムの革新とシステムレベルの評価を組み合わせた新しいフレームワークFlexQを提案する。
論文参考訳（メタデータ） (2025-08-06T12:47:05Z)
Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。 PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文参考訳（メタデータ） (2025-07-09T07:27:18Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。 TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。 TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文参考訳（メタデータ） (2024-10-01T09:18:56Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文参考訳（メタデータ） (2024-06-11T01:16:10Z)
MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter [40.616849959987555]
本稿では,大規模言語モデル (LLM) を大容量かつメモリ効率のよいアダプタで微調整する機構を提案する。これは、LLMのFeed-Forward Networks(FFN)における固有のアクティベーション間隔を活用することで実現される。我々は、不必要なCPU計算を緩和し、GPUとCPU間の通信量を削減するために、Mixture of Experts(MoE)のようなアーキテクチャを採用している。
論文参考訳（メタデータ） (2024-06-07T14:49:22Z)
LoongServe: Efficiently Serving Long-Context Large Language Models with Elastic Sequence Parallelism [12.521026493432181]
既存の大規模言語モデル(LLM)は、異なるフェーズにおける可変長要求を効率的に提供できない。本稿では,異なる要求と位相の分散に対応するために,新しい並列性パラダイムである弾性列並列性(ESP)を提案する。 LoongServeは、チャンクプレフィルと比較して最大スループットを最大3.85$times$、プリフィルデコードデアグリゲーションと比較して5.81$times$に改善する。
論文参考訳（メタデータ） (2024-04-15T07:45:04Z)
JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning [16.86356520836045]
本稿では,Llama-2モデルのPEFT互換微調整のための新しいフレームワークについて紹介する。我々のフレームワークは、JAXのジャスト・イン・タイム(JIT)コンパイルと、効率的なリソース管理のためにテンソルシャーディングを独自に利用しています。実験では,Hugging Face/DeepSpeed実装を4GPUで実装するのに対して,GPUあたりのVRAMは半分以下であるのに対して,ランタイムでは12倍以上の改善が見られた。
論文参考訳（メタデータ） (2024-03-17T23:02:04Z)
Green AI: A Preliminary Empirical Study on Energy Consumption in DL Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文参考訳（メタデータ） (2024-02-21T09:18:44Z)
FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文参考訳（メタデータ） (2024-01-08T17:29:16Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。 1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文参考訳（メタデータ） (2023-03-13T05:19:28Z)
Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文参考訳（メタデータ） (2022-06-07T15:20:20Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)
Dynamic Parameter Allocation in Parameter Servers [74.250687861348]
本稿では,パラメータサーバに動的パラメータ割り当てを組み込んで,Lapse と呼ばれるパラメータサーバの効率的な実装を提案する。 Lapseはニアリニアなスケーリングを提供しており、既存のパラメータサーバよりも桁違いに高速であることがわかった。
論文参考訳（メタデータ） (2020-02-03T11:37:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。