論文の概要: DeServe: Towards Affordable Offline LLM Inference via Decentralization
- arxiv url: http://arxiv.org/abs/2501.14784v1
- Date: Sat, 04 Jan 2025 02:10:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-02 09:19:33.339157
- Title: DeServe: Towards Affordable Offline LLM Inference via Decentralization
- Title(参考訳): DeServe: 分散化による拡張可能なオフラインLCM推論を目指して
- Authors: Linyu Wu, Xiaoyuan Liu, Tianneng Shi, Zhe Ye, Dawn Song,
- Abstract要約: 本稿では,大規模言語モデル(LLM)推論のための分散型オフラインサービスシステムの設計について述べる。
アイドルGPUリソースを利用することで,提案システムであるDeServeは,LLMへのアクセスを低コストで分散化する。
実験によると、DeServeは既存のサービスシステムのベースラインよりもスループットが6.7x-12.6倍向上している。
- 参考スコア(独自算出の注目度): 42.8973830120059
- License:
- Abstract: The rapid growth of generative AI and its integration into everyday workflows have significantly increased the demand for large language model (LLM) inference services. While proprietary models remain popular, recent advancements in open-source LLMs have positioned them as strong contenders. However, deploying these models is often constrained by the high costs and limited availability of GPU resources. In response, this paper presents the design of a decentralized offline serving system for LLM inference. Utilizing idle GPU resources, our proposed system, DeServe, decentralizes access to LLMs at a lower cost. DeServe specifically addresses key challenges in optimizing serving throughput in high-latency network environments. Experiments demonstrate that DeServe achieves a 6.7x-12.6x improvement in throughput over existing serving system baselines in such conditions.
- Abstract(参考訳): 生成AIの急速な成長と日々のワークフローへの統合により、大規模言語モデル(LLM)推論サービスの需要が大幅に増加した。
プロプライエタリなモデルは依然として人気があるが、最近のオープンソースLSMの進歩は、それらが強力な競争相手として位置づけられている。
しかしながら、これらのモデルのデプロイは、高コストとGPUリソースの可用性の制限によって制約されることが多い。
本報告では,LLM推論のための分散型オフラインサービスシステムの設計について述べる。
アイドルGPUリソースを利用することで,提案システムであるDeServeは,LLMへのアクセスを低コストで分散化する。
DeServeは特に、高レイテンシネットワーク環境におけるスループットの最適化における重要な課題に対処している。
実験によると、DeServeは既存のサービスシステムのベースラインよりもスループットが6.7x-12.6倍向上している。
関連論文リスト
- Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。
既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。
プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文 参考訳(メタデータ) (2025-02-19T18:59:30Z) - Enabling Efficient Serverless Inference Serving for LLM (Large Language Model) in the Cloud [0.0]
レビューレポートでは、サーバレス推論と既存のソリューションにおけるコールドスタートレイテンシについて論じている。
大規模言語モデルのサーバーレス推論におけるコールドスタート問題に対処するために設計されたシステム。
論文 参考訳(メタデータ) (2024-11-23T22:19:37Z) - ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving [15.01982917560918]
本稿では,オフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。
我々は、オフラインタスクの実行をプリエンプトする実行エンジンを含むLLMサービスシステムであるConServeを構築した。
オンラインタスクとオフラインタスクの協調作業において,ConServeが強力なパフォーマンス分離を実現することを示す。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency [20.33467627548677]
大規模言語モデル(LLM)は人気が高まり、商用アプリケーションで広く使われている。
LLMサービスシステムにおいて、エンドツーエンドのレイテンシに影響を及ぼす大きなボトルネックを特定するために、詳細な分析を行う。
次に,資源効率の高いLLMサービスのための最適化システムであるScaleLLMを提案する。
論文 参考訳(メタデータ) (2024-07-23T23:37:29Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - POLCA: Power Oversubscription in LLM Cloud Providers [0.8299593158757622]
大規模言語モデル (LLMs) はますます強力になりつつある。
LLMクラスタに電力をオーバーサブスクライブする大きな機会があることが示される。
我々は、堅牢で信頼性があり、GPUクラスタに容易にデプロイ可能な、パワーオーバーサブスクライブのためのフレームワークであるPOLCAを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。