Fugu-MT 論文翻訳(概要): ServerlessLLM: Locality-Enhanced Serverless Inference for Large Language Models

論文の概要: ServerlessLLM: Locality-Enhanced Serverless Inference for Large Language Models

arxiv url: http://arxiv.org/abs/2401.14351v1
Date: Thu, 25 Jan 2024 17:55:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 13:43:39.506120
Title: ServerlessLLM: Locality-Enhanced Serverless Inference for Large Language Models
Title（参考訳）: serverlessllm: 大規模言語モデルのためのローカル性向上型サーバレス推論
Authors: Yao Fu, Leyang Xue, Yeqi Huang, Andrei-Octavian Brabete, Dmitrii Ustiugov, Yuvraj Patel, Luo Mai
Abstract要約: ServerlessLLMは、GPUサーバで利用可能なストレージとメモリデバイスのかなりの容量と帯域幅を利用する。実験の結果,ServerlessLLMは最新システムの10～200倍のレイテンシ性能を実現していることがわかった。
参考スコア（独自算出の注目度）: 15.49473186189383
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper presents ServerlessLLM, a locality-enhanced serverless inference system for Large Language Models (LLMs). ServerlessLLM exploits the substantial capacity and bandwidth of storage and memory devices available on GPU servers, thereby reducing costly remote checkpoint downloads and achieving efficient checkpoint loading. ServerlessLLM achieves this through three main contributions: (i) fast LLM checkpoint loading via a novel loading-optimized checkpoint format design, coupled with an efficient multi-tier checkpoint loading system; (ii) locality-driven LLM inference with live migration, which allows ServerlessLLM to effectively achieve locality-driven server allocation while preserving the low latency of ongoing LLM inference; and (iii) locality-aware server allocation, enabling ServerlessLLM to evaluate the status of each server in a cluster and effectively schedule model startup time to capitalize on local checkpoint placement. Our comprehensive experiments, which include microbenchmarks and real-world traces, show that ServerlessLLM surpasses state-of-the-art systems by 10 - 200X in latency performance when running various LLM inference workloads.
Abstract（参考訳）: 本稿では,Large Language Models (LLM) のための局所性強化型サーバレス推論システムであるServerlessLLMを提案する。 ServerlessLLMはGPUサーバで利用可能なストレージとメモリデバイスの容量と帯域幅を利用して、コストのかかるリモートチェックポイントダウンロードを削減し、効率的なチェックポイントローディングを実現する。 serverlessllmは3つの大きな貢献によってこれを達成する。 i) 高速LCMチェックポイントローディングを, 効率的なマルチ層チェックポイントローディングシステムと組み合わせた, 新規なロード最適化チェックポイントフォーマット設計による。 (ii)ローカリティ駆動型LLM推論とライブマイグレーションにより、ServerlessLLMは、進行中のLLM推論の低レイテンシを保ちながら、ローカリティ駆動型サーバアロケーションを効果的に実現できる。 3)ローカリティ対応サーバアロケーションにより、ServerlessLLMはクラスタ内の各サーバの状態を評価し、モデル起動時間を効果的にスケジュールし、ローカルチェックポイントの配置に乗れるようにする。マイクロベンチマークや実世界のトレースを含む包括的実験により、ServerlessLLMは、さまざまなLLM推論ワークロードを実行する場合、最新システムの10～200倍のレイテンシ性能を達成しています。

関連論文リスト

FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving [9.386969461835433]
FlashInferは、大きな言語モデル(LLM)のためのカスタマイズ可能で効率的なアテンションエンジンであるブロックスパースフォーマットと構成可能なフォーマットを使用して、KV-cacheストレージの不均一性に取り組むことで、メモリアクセスの最適化と冗長性の低減を実現している。また、Just-In-TimeJITコンパイルによるさまざまな設定への適応を可能にする、カスタマイズ可能なアテンションテンプレートも提供する。
論文参考訳（メタデータ） (2025-01-02T02:02:20Z)
Enabling Efficient Serverless Inference Serving for LLM (Large Language Model) in the Cloud [0.0]
レビューレポートでは、サーバレス推論と既存のソリューションにおけるコールドスタートレイテンシについて論じている。大規模言語モデルのサーバーレス推論におけるコールドスタート問題に対処するために設計されたシステム。
論文参考訳（メタデータ） (2024-11-23T22:19:37Z)
SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。 SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文参考訳（メタデータ） (2024-10-04T14:52:18Z)
Mixture of Attentions For Speculative Decoding [17.344416130742232]
投機的復号法(SD)は、より小さなモデルを利用して将来のトークンを効率的に提案し、それを大規模言語モデルによって並列に検証する。 SDモデルには、トレーニング中のオン・ポリティネスの欠如や部分観測可能性の欠如など、いくつかの制限がある。 SD用ミクチャ・オブ・アテンションの導入により,小型モデルのより基礎的なアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-10-04T10:25:52Z)
ByteCheckpoint: A Unified Checkpointing System for Large Foundation Model Development [9.13331802151585]
ByteCheckpoint は大規模 LFM トレーニングのための産業レベルのチェックポイントシステムである。 ByteCheckpoint はチェックポイントストールを著しく減少させ、平均54.20倍の減少を達成する。 ByteCheckpointは、保存時間とロード時間を最大9.96倍と8.80倍に改善した。
論文参考訳（メタデータ） (2024-07-29T16:18:20Z)
FSD-Inference: Fully Serverless Distributed Inference with Scalable Cloud Communication [2.1301190271783317]
FSD-Inferenceは、分散ML推論のための、初めて完全にサーバレスで高度にスケーラブルなシステムである。我々は、クラウドベースのパブリッシュ/サブスクライブ/キューとオブジェクトストレージの両方を活用する、ML推論ワークロードのための、新しい完全なサーバレス通信スキームを紹介します。
論文参考訳（メタデータ） (2024-03-22T13:31:24Z)
Communication Efficient ConFederated Learning: An Event-Triggered SAGA Approach [67.27031215756121]
Federated Learning(FL)は、さまざまなデータソース上のローカルデータを収集することなく、モデルトレーニングをターゲットとする機械学習パラダイムである。単一のサーバを使用するStandard FLは、限られた数のユーザしかサポートできないため、学習能力の低下につながる。本研究では,多数のユーザに対応するために,emphConfederated Learning(CFL)と呼ばれるマルチサーバFLフレームワークを検討する。
論文参考訳（メタデータ） (2024-02-28T03:27:10Z)
SpotServe: Serving Generative Large Language Models on Preemptible Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。 SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4～9.1倍削減できることを示す。また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文参考訳（メタデータ） (2023-11-27T06:31:17Z)
SQLNet: Scale-Modulated Query and Localization Network for Few-Shot Class-Agnostic Counting [71.38754976584009]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文参考訳（メタデータ） (2023-11-16T16:50:56Z)
Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。 FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文参考訳（メタデータ） (2023-05-10T06:17:50Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
Taurus: A Data Plane Architecture for Per-Packet ML [59.1343317736213]
本稿では,線数推論のためのデータプレーンであるTaurusの設計と実装について述べる。 Taurus スイッチ ASIC の評価は,Taurus がサーバベースコントロールプレーンよりも桁違いに高速に動作することを示す。
論文参考訳（メタデータ） (2020-02-12T09:18:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。