Fugu-MT 論文翻訳(概要): DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference

論文の概要: DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference

arxiv url: http://arxiv.org/abs/2401.08671v1
Date: Tue, 9 Jan 2024 06:49:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 09:40:09.565381
Title: DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference
Title（参考訳）: deepspeed-fastgen: miiとdeepspeed-inferenceによるllmsの高速テキスト生成
Authors: Connor Holmes, Masahiro Tanaka, Michael Wyatt, Ammar Ahmad Awan, Jeff Rasley, Samyam Rajbhandari, Reza Yazdani Aminabadi, Heyang Qin, Arash Bakhtiari, Lev Kurilenko, Yuxiong He
Abstract要約: 本稿では,最大2.3倍高いスループット,平均2倍のレイテンシ,最大3.7倍のテールレイテンシを実現するシステムであるDeepSpeed-FastGenを紹介する。我々は、DeepSpeed-MIIとDeepSpeed-Inferenceの相乗的組み合わせを利用して、大規模言語モデルのための効率的で使いやすいサービスシステムを提供する。
参考スコア（独自算出の注目度）: 23.49242865222089
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The deployment and scaling of large language models (LLMs) have become critical as they permeate various applications, demanding high-throughput and low-latency serving systems. Existing frameworks struggle to balance these requirements, especially for workloads with long prompts. This paper introduces DeepSpeed-FastGen, a system that employs Dynamic SplitFuse, a novel prompt and generation composition strategy, to deliver up to 2.3x higher effective throughput, 2x lower latency on average, and up to 3.7x lower (token-level) tail latency, compared to state-of-the-art systems like vLLM. We leverage a synergistic combination of DeepSpeed-MII and DeepSpeed-Inference to provide an efficient and easy-to-use serving system for LLMs. DeepSpeed-FastGen's advanced implementation supports a range of models and offers both non-persistent and persistent deployment options, catering to diverse user scenarios from interactive sessions to long-running applications. We present a detailed benchmarking methodology, analyze the performance through latency-throughput curves, and investigate scalability via load balancing. Our evaluations demonstrate substantial improvements in throughput and latency across various models and hardware configurations. We discuss our roadmap for future enhancements, including broader model support and new hardware backends. The DeepSpeed-FastGen code is readily available for community engagement and contribution.
Abstract（参考訳）: 大規模言語モデル(LLM)の展開とスケーリングは、様々なアプリケーションに浸透し、高スループットと低レイテンシのサービスシステムを必要としているため、重要になっている。既存のフレームワークはこれらの要件のバランスをとるのに苦労している。本稿では,新しいプロンプトおよびジェネレーション構成戦略であるDynamic SplitFuseを利用するシステムであるDeepSpeed-FastGenを紹介し,vLLMのような最先端システムと比較して,最大2.3倍高いスループット,平均2倍のレイテンシ,最大3.7倍のテールレイテンシを実現する。我々は,deepspeed-miiとdeepspeed-inferenceの相乗的組み合わせを利用して,llmのための効率的で使いやすいサービングシステムを提供する。 DeepSpeed-FastGenの高度な実装は、さまざまなモデルをサポートし、対話的なセッションから長時間実行されるアプリケーションまで、多様なユーザシナリオに対応する、永続的および永続的なデプロイメントオプションを提供する。本稿では,詳細なベンチマーク手法,レイテンシ・スループット曲線による性能解析,ロードバランシングによるスケーラビリティの検討を行う。評価の結果,各種モデルとハードウェア構成のスループットとレイテンシが大幅に向上した。我々は、より広範なモデルサポートと新しいハードウェアバックエンドを含む将来の拡張のロードマップについて論じる。 deepspeed-fastgenコードはコミュニティの関与と貢献のために簡単に利用できる。

関連論文リスト

Understanding and Optimizing Multi-Stage AI Inference Pipelines [11.254219071373319]
HERMESは不均一な多段LPM推論実行シミュレータである。 HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
論文参考訳（メタデータ） (2025-04-14T00:29:49Z)
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。 MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-27T00:59:14Z)
AccelGen: Heterogeneous SLO-Guaranteed High-Throughput LLM Inference Serving for Diverse Applications [8.964981700274059]
多様なアプリケーションに対して異種SLOを保証する高スループット推論サービスであるAccelGenを提案する。トレース実実験により、AccelGenは1.42-11.21倍のスループット、1.43-13.71倍の高出力、37-90%のSLO達成、そして1.61-12.22倍の応答遅延を達成した。
論文参考訳（メタデータ） (2025-03-17T21:47:43Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文参考訳（メタデータ） (2024-07-12T09:24:34Z)
FLAASH: Flexible Accelerator Architecture for Sparse High-Order Tensor Contraction [3.6640504352010885]
本稿では,スパーステンソル収縮のためのフレキシブルでモジュラーな加速器であるFLAASHを紹介する。我々のアーキテクチャは、スパースドット製品(またはその一部)を多数のスパースドット製品エンジンに分散することにより、スパーステンソル収縮を行う。提案手法の有効性は,様々な評価によって示され,空間性や順序の増大とともに顕著なスピードアップが示される。
論文参考訳（メタデータ） (2024-04-25T03:46:53Z)
MARS: Exploiting Multi-Level Parallelism for DNN Workloads on Adaptive Multi-Accelerator Systems [27.490645446510033]
本稿では,並列性を最大化するために,計算対応アクセラレータ選択と通信対応シャーディング戦略の適用が可能な新しいマッピングフレームワークを提案する。その結果,MARS はベースラインと比較して DNN のワークロードの平均で32.2% のレイテンシ削減を達成でき,またヘテロジニアスモデルでは59.4% のレイテンシ削減を実現している。
論文参考訳（メタデータ） (2023-07-23T05:50:37Z)
Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。 FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文参考訳（メタデータ） (2023-05-10T06:17:50Z)
Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文参考訳（メタデータ） (2022-09-27T15:04:01Z)
An Intelligent Deterministic Scheduling Method for Ultra-Low Latency Communication in Edge Enabled Industrial Internet of Things [19.277349546331557]
時間知覚ネットワーク (TSN) は, 決定論的スケジューリングによる低遅延通信を実現するために最近研究されている。非衝突理論に基づく決定論的スケジューリング (NDS) 法を提案し, 時間に敏感な流れに対する超低遅延通信を実現する。実験の結果,NDS/DQSは決定論的超低レイテンシサービスを十分にサポートし,帯域幅の有効利用を保証できることがわかった。
論文参考訳（メタデータ） (2022-07-17T16:52:51Z)
Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for 5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文参考訳（メタデータ） (2022-01-13T15:20:45Z)
Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文参考訳（メタデータ） (2021-06-07T11:37:03Z)
Towards High Performance Java-based Deep Learning Frameworks [0.22940141855172028]
現代のクラウドサービスは、高速で効率的なデータ処理の需要を定めている。この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。本稿では、JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化する最先端のプログラミングフレームワークであるTornadoVMを採用しました。
論文参考訳（メタデータ） (2020-01-13T13:03:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。