論文の概要: ServerlessLLM: Locality-Enhanced Serverless Inference for Large Language
Models
- arxiv url: http://arxiv.org/abs/2401.14351v1
- Date: Thu, 25 Jan 2024 17:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 13:43:39.506120
- Title: ServerlessLLM: Locality-Enhanced Serverless Inference for Large Language
Models
- Title(参考訳): serverlessllm: 大規模言語モデルのためのローカル性向上型サーバレス推論
- Authors: Yao Fu, Leyang Xue, Yeqi Huang, Andrei-Octavian Brabete, Dmitrii
Ustiugov, Yuvraj Patel, Luo Mai
- Abstract要約: ServerlessLLMは、GPUサーバで利用可能なストレージとメモリデバイスのかなりの容量と帯域幅を利用する。
実験の結果,ServerlessLLMは最新システムの10~200倍のレイテンシ性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 15.49473186189383
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents ServerlessLLM, a locality-enhanced serverless inference
system for Large Language Models (LLMs). ServerlessLLM exploits the substantial
capacity and bandwidth of storage and memory devices available on GPU servers,
thereby reducing costly remote checkpoint downloads and achieving efficient
checkpoint loading. ServerlessLLM achieves this through three main
contributions: (i) fast LLM checkpoint loading via a novel loading-optimized
checkpoint format design, coupled with an efficient multi-tier checkpoint
loading system; (ii) locality-driven LLM inference with live migration, which
allows ServerlessLLM to effectively achieve locality-driven server allocation
while preserving the low latency of ongoing LLM inference; and (iii)
locality-aware server allocation, enabling ServerlessLLM to evaluate the status
of each server in a cluster and effectively schedule model startup time to
capitalize on local checkpoint placement. Our comprehensive experiments, which
include microbenchmarks and real-world traces, show that ServerlessLLM
surpasses state-of-the-art systems by 10 - 200X in latency performance when
running various LLM inference workloads.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) のための局所性強化型サーバレス推論システムであるServerlessLLMを提案する。
ServerlessLLMはGPUサーバで利用可能なストレージとメモリデバイスの容量と帯域幅を利用して、コストのかかるリモートチェックポイントダウンロードを削減し、効率的なチェックポイントローディングを実現する。
serverlessllmは3つの大きな貢献によってこれを達成する。
i) 高速LCMチェックポイントローディングを, 効率的なマルチ層チェックポイントローディングシステムと組み合わせた, 新規なロード最適化チェックポイントフォーマット設計による。
(ii)ローカリティ駆動型LLM推論とライブマイグレーションにより、ServerlessLLMは、進行中のLLM推論の低レイテンシを保ちながら、ローカリティ駆動型サーバアロケーションを効果的に実現できる。
3)ローカリティ対応サーバアロケーションにより、ServerlessLLMはクラスタ内の各サーバの状態を評価し、モデル起動時間を効果的にスケジュールし、ローカルチェックポイントの配置に乗れるようにする。
マイクロベンチマークや実世界のトレースを含む包括的実験により、ServerlessLLMは、さまざまなLLM推論ワークロードを実行する場合、最新システムの10~200倍のレイテンシ性能を達成しています。
関連論文リスト
- Automated Federated Pipeline for Parameter-Efficient Fine-Tuning of Large Language Models [21.864109456867784]
多くの下流タスクでは、プライベートデータを使用して大きな言語モデル(LLM)を微調整する必要がある。
我々はFedPipeという自動フェデレーションパイプラインを提案し、最小のトレーニングコストでLLMを微調整する。
大規模な実験では、FedPipeがモデルのトレーニングを高速化し、最先端のベンチマークよりも高い精度を達成することが示されている。
論文 参考訳(メタデータ) (2024-04-09T16:50:30Z) - FSD-Inference: Fully Serverless Distributed Inference with Scalable Cloud Communication [2.1301190271783317]
FSD-Inferenceは、分散ML推論のための、初めて完全にサーバレスで高度にスケーラブルなシステムである。
我々は、クラウドベースのパブリッシュ/サブスクライブ/キューとオブジェクトストレージの両方を活用する、ML推論ワークロードのための、新しい完全なサーバレス通信スキームを紹介します。
論文 参考訳(メタデータ) (2024-03-22T13:31:24Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - SQLNet: Scale-Modulated Query and Localization Network for Few-Shot
Class-Agnostic Counting [71.38754976584009]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。
我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。
クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文 参考訳(メタデータ) (2023-11-16T16:50:56Z) - ML-Bench: Evaluating Large Language Models for Code Generation in Repository-Level Machine Learning Tasks [76.85930757493409]
大規模言語モデル(LLM)は、コード生成ベンチマークの習熟度を示しているが、これらの結果を実用的な開発シナリオに変換することは依然として難しい。
ML-Benchは、レポジトリレベルのオープンソースライブラリを統合して機械学習タスクを完了させるLLMの機能を評価するために設計された、新しいベンチマークである。
以上の結果から, GPT-4は他のLSMよりも優れており, 課題の複雑さを浮き彫りにしたタスクは33.82%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - POLCA: Power Oversubscription in LLM Cloud Providers [0.8299593158757622]
大規模言語モデル (LLMs) はますます強力になりつつある。
LLMクラスタに電力をオーバーサブスクライブする大きな機会があることが示される。
我々は、堅牢で信頼性があり、GPUクラスタに容易にデプロイ可能な、パワーオーバーサブスクライブのためのフレームワークであるPOLCAを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:32:34Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Fast Distributed Inference Serving for Large Language Models [12.682341873843882]
大規模言語モデル(LLM)は、ChatGPTで実証された対話型AIアプリケーションの新しい世代のパワーである。
これらのアプリケーションのインタラクティブな性質は、モデル推論に低いジョブ完了時間(JCT)を必要とする。
LLMのための分散推論サービスシステムであるFastServeについて述べる。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。