論文の概要: ALISE: Accelerating Large Language Model Serving with Speculative Scheduling
- arxiv url: http://arxiv.org/abs/2410.23537v1
- Date: Thu, 31 Oct 2024 00:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:42.619251
- Title: ALISE: Accelerating Large Language Model Serving with Speculative Scheduling
- Title(参考訳): ALISE: 投機的スケジューリングによる大規模言語モデルの高速化
- Authors: Youpeng Zhao, Jun Wang,
- Abstract要約: 大規模言語モデル(LLM)は、現代の人工知能(AGI)の展望における革命的な進歩を表している。
本稿では, ALISE という新しい効率的な LLM 推論サービスフレームワークを提案する。
ALISEは,AlpacaデータセットとShareGPTデータセットと同じレイテンシ制約の下で,最大1.8xと2.1xの推論処理のスループットを向上することを示す。
- 参考スコア(独自算出の注目度): 7.367068885621016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) represent a revolutionary advancement in the contemporary landscape of artificial general intelligence (AGI). As exemplified by ChatGPT, LLM-based applications necessitate minimal response latency and maximal throughput for inference serving. However, due to the unpredictability of LLM execution, the first-come-first-serve (FCFS) scheduling policy employed by current LLM serving systems suffers from head-of-line (HoL) blocking issues and long job response times. In this paper, we propose a new efficient LLM inference serving framework, named ALISE. The key design paradigm of ALISE is to leverage a novel speculative scheduler by estimating the execution time for each job and exploiting such prior knowledge to assign appropriate job priority orders, thus minimizing potential queuing delays for heterogeneous workloads. Furthermore, to mitigate the memory overhead of the intermediate key-value (KV) cache, we employ a priority-based adaptive memory management protocol and quantization-based compression techniques. Evaluations demonstrate that in comparison to the state-of-the-art solution vLLM, ALISE improves the throughput of inference serving by up to 1.8x and 2.1x under the same latency constraint on the Alpaca and ShareGPT datasets, respectively.
- Abstract(参考訳): LLM(Large Language Models)は、人工知能(AGI)の現代的展望における革命的な進歩を表す。
ChatGPTが例示したように、LLMベースのアプリケーションは推論サービスに最小の応答待ち時間と最大スループットを必要とする。
しかし、LLM実行の予測不能のため、現在のLLMサービスシステムで採用されているFCFSスケジューリングポリシーは、ヘッド・オブ・ライン(HoL)ブロッキングの問題と長時間のジョブ応答に悩まされている。
本稿では, ALISE という新しい効率的な LLM 推論サービスフレームワークを提案する。
ALISEの鍵となる設計パラダイムは、ジョブごとの実行時間を推定し、それ以前の知識を利用して適切なジョブ優先順序を割り当てることで、新しい投機的スケジューラを活用することである。
さらに、中間キー値(KV)キャッシュのメモリオーバーヘッドを軽減するために、優先度に基づく適応型メモリ管理プロトコルと量子化に基づく圧縮技術を用いる。
ALISEは、最先端のソリューションvLLMと比較して、AlpacaとShareGPTデータセットの同じレイテンシ制約の下で、最大1.8xと2.1xの推論のスループットを改善する。
関連論文リスト
- Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving [22.66354939370058]
Apt-Serveは、大規模言語モデル(LLM)推論サービスシステムにおける効果的なスループットを高めるために設計されたフレームワークである。
新たなハイブリッドキャッシュスキームでは、KVキャッシュとメモリ効率の高い隠れキャッシュを組み合わせることで、再利用可能な入力隠れ状態ベクタを実現し、バッチサイズを大きくし、要求を改善する。
Apt-Serveは,最先端の推論サービスシステムと比較して,スループットが最大8.8倍向上することを示す。
論文 参考訳(メタデータ) (2025-04-10T06:51:23Z) - Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。
既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。
プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文 参考訳(メタデータ) (2025-02-19T18:59:30Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - Fast Inference for Augmented Large Language Models [14.195265302357148]
Augmented Large Language Models (LLM)は、APIコールを通じて外部データソースを統合することで、スタンドアロンのLLMの機能を強化する。
SJF(Shortest Job First)のような従来のサイズベースのスケジューリングアルゴリズムは、完了時間の最小化にはあまり効果がない。
拡張LLMのための新しいLLM推論フレームワークであるLAMPSを提案する。
論文 参考訳(メタデータ) (2024-10-23T19:53:30Z) - Don't Stop Me Now: Embedding Based Scheduling for LLMs [22.099820814682513]
SRPT(Shortest Remaining Process Time)のようなサイズベースのスケジューリングアルゴリズムは、平均的な要求完了時間を削減することを目的としている。
LLMシステムにおけるメモリオーバーヘッドを考慮した予測型SRPT変種を提案する。
論文 参考訳(メタデータ) (2024-10-01T19:51:07Z) - Efficient LLM Scheduling by Learning to Rank [19.33941579312897]
そこで本研究では,要求の集合における出力長の相対的なランクを,学習者によるランク付けによって予測可能であることを示す。
我々は,LLM推論のための新しいスケジューラを開発し,SJFスケジュールを既存手法よりも高速に近似する。
論文 参考訳(メタデータ) (2024-08-28T13:35:54Z) - Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。
LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。
LASERは公開データセットの3~5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Efficient Interactive LLM Serving with Proxy Model-based Sequence Length Prediction [8.705908108054878]
大型モデル(LLM)は、多くのドメインにわたるAIアプリケーションの新しい波を駆動している。
LLM出力シーケンス長の予測に光プロキシモデルを用いる投機的ショートストジョブファースト(SSJF)スケジューラを提案する。
論文 参考訳(メタデータ) (2024-04-12T14:46:15Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。