Fugu-MT 論文翻訳(概要): ExeGPT: Constraint-Aware Resource Scheduling for LLM Inference

論文の概要: ExeGPT: Constraint-Aware Resource Scheduling for LLM Inference

arxiv url: http://arxiv.org/abs/2404.07947v1
Date: Fri, 15 Mar 2024 06:21:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-14 13:03:36.105494
Title: ExeGPT: Constraint-Aware Resource Scheduling for LLM Inference
Title（参考訳）: ExeGPT: LLM推論のための制約を考慮したリソーススケジューリング
Authors: Hyungjun Oh, Kihong Kim, Jaemin Kim, Sungkyun Kim, Junyeol Lee, Du-seong Chang, Jiwon Seo,
Abstract要約: 本稿では,制約を考慮したLLM推論のための分散システムExeGPTを提案する。入力シーケンスと出力シーケンスの分散を利用することで、リソースを効果的に割り当て、最適な実行構成を決定する。我々は, T5, OPT, GPT-3の6つのLLMインスタンスと5つのNLPタスクに対して, それぞれ異なる遅延制約を持つExeGPTを評価した。
参考スコア（独自算出の注目度）: 8.067906745034268
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents ExeGPT, a distributed system designed for constraint-aware LLM inference. ExeGPT finds and runs with an optimal execution schedule to maximize inference throughput while satisfying a given latency constraint. By leveraging the distribution of input and output sequences, it effectively allocates resources and determines optimal execution configurations, including batch sizes and partial tensor parallelism. We also introduce two scheduling strategies based on Round-Robin Allocation and Workload-Aware Allocation policies, suitable for different NLP workloads. We evaluate ExeGPT on six LLM instances of T5, OPT, and GPT-3 and five NLP tasks, each with four distinct latency constraints. Compared to FasterTransformer, ExeGPT achieves up to 15.2x improvements in throughput and 6x improvements in latency. Overall, ExeGPT achieves an average throughput gain of 2.9x across twenty evaluation scenarios. Moreover, when adapting to changing sequence distributions, the cost of adjusting the schedule in ExeGPT is reasonably modest. ExeGPT proves to be an effective solution for optimizing and executing LLM inference for diverse NLP workload and serving conditions.
Abstract（参考訳）: 本稿では,制約を考慮したLLM推論のための分散システムExeGPTを提案する。 ExeGPTは、与えられたレイテンシ制約を満たしながら、推論スループットを最大化するために、最適な実行スケジュールを見つけ、実行します。入力シーケンスと出力シーケンスの分散を活用することで、リソースを効果的に割り当て、バッチサイズや部分テンソル並列性を含む最適な実行構成を決定する。また、異なるNLPワークロードに適したラウンドロビン割当ポリシーとワークロード意識割当ポリシーに基づく2つのスケジューリング戦略を導入する。我々は, T5, OPT, GPT-3の6つのLLMインスタンスと5つのNLPタスクに対して, それぞれ異なる遅延制約を持つExeGPTを評価した。 FasterTransformerと比較して、ExeGPTはスループットを最大15.2倍改善し、レイテンシを6倍改善した。全体として、ExeGPTは20のシナリオで平均スループットが2.9倍になる。さらに、シーケンス分布の変化に適応する場合、ExeGPTのスケジュールを調整するコストは、合理的に控えめである。 ExeGPTは、多様なNLPワークロードとサービス条件に対してLLM推論を最適化し実行するための有効なソリューションであることが証明されている。

関連論文リスト

Optimal Scheduling Algorithms for LLM Inference: Theory and Practice [6.043830060363904]
本稿では,大規模言語モデル推論システムにおけるルーティングとスケジューリングをモデル化する理論的枠組みを開発する。スループット向上に不可欠な設計原則として,最適化タイリングと動的リソース割り当ての2つがあげられる。本稿では,リソース・アウェア・ダイナミック(RAD)スケジューラが軽度条件下でスループットの最適化を実現することを示す。
論文参考訳（メタデータ） (2025-08-01T18:12:21Z)
ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism [9.93378263858092]
マルチモーダル大言語モデル(MLLM)は、特徴抽出器とプロジェクションモジュールを組み込むことで、画像、ビデオ、オーディオを扱う。現在の密結合のサービスアーキテクチャは、混合要求タイプを区別するのに苦労しています。資源の不均一性に弾力的に適応する新しいサービスパラダイムであるElastic Multimodal Parallelism (EMP)を提案する。
論文参考訳（メタデータ） (2025-07-14T08:53:48Z)
Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks [4.851402232145819]
我々は、生成フローネットワーク(GFlowNets)を用いた視覚言語モデル(VLMs)を微調整するフレームワークであるGFlowVLMを紹介する。 GFlowVLMは、環境を非マルコフ決定プロセスとしてモデル化し、現実世界のアプリケーションに必要な長期的な依存関係をキャプチャする。 GFlowVLMがカードゲーム(NumberLine, BlackJack)や実施計画タスク(ALFWorld)といった複雑なタスクに有効であることを示す実証実験結果。
論文参考訳（メタデータ） (2025-03-09T08:38:10Z)
Seesaw: High-throughput LLM Inference via Model Re-sharding [8.840996987380484]
本稿ではスループット指向タスクに最適化された推論エンジンであるSeesawを紹介する。 Seesawの背景にある主要なアイデアは、並列化戦略の動的再構成を容易にする技術である動的モデル再シャーディングである。
論文参考訳（メタデータ） (2025-03-09T04:14:06Z)
Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。リクエストはサーバ上のジョブをスケジューリングする重要なステップです。リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文参考訳（メタデータ） (2024-12-03T03:16:12Z)
Anda: Unlocking Efficient LLM Inference with a Variable-Length Grouped Activation Data Format [5.527166214435735]
量子化大言語モデル(LLM)は低ビット整数(INT)重みを利用し、浮動小数点(FP)アクティベーションを保持する。これにより、コストのかかるメモリアクセスと計算に関連するFPアクティベーションに、エネルギとレイテンシのボトルネックがシフトする。既存のLCMアクセラレータは、FP計算とデータ移動を協調的に最適化する可能性を見越して、計算最適化に重点を置いている。
論文参考訳（メタデータ） (2024-11-24T20:59:39Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Autoregressive Policy Optimization for Constrained Allocation Tasks [4.316765170255551]
本稿では,各エンティティのアロケーションを逐次サンプリングする自己回帰プロセスに基づく制約付きアロケーションタスクの新しい手法を提案する。さらに, 逐次サンプリングによる初期バイアスに対処する新しい脱バイアス機構を提案する。
論文参考訳（メタデータ） (2024-09-27T13:27:15Z)
NDP: Next Distribution Prediction as a More Broad Target [59.30497395313209]
我々はNext Distribution Prediction (NDP)を導入し、$n$-gramの分布を使って1ホットターゲットを置き換える。 NDPは翻訳タスクで最大2.97 COMETの改善、一般タスクで平均0.61、医療領域で平均10.75の改善を達成できる。
論文参考訳（メタデータ） (2024-08-30T16:13:49Z)
Teola: Towards End-to-End Optimization of LLM-based Applications [13.478509565946354]
大規模言語モデル(LLM)ベースのアプリケーションは、エンドツーエンドのレイテンシに寄与する。既存のフレームワークでは、各モジュールに最適化を限定するタスクモジュールによる粗粒度のオーケストレーションが採用されている。タスクプリミティブを基本単位として,各クエリのワークフローをプリミティブレベルのデータフローグラフとして表現する,詳細なエンドツーエンドオーケストレーションを提案する。
論文参考訳（メタデータ） (2024-06-29T05:59:53Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
Controllable Prompt Tuning For Balancing Group Distributional Robustness [53.336515056479705]
グループ間で優れたパフォーマンスを実現するための最適化スキームを導入し、それらの性能を著しく犠牲にすることなく、全員に良い解決策を見出す。本稿では,制御可能なプロンプトチューニング(CPT)を提案する。突発的相関ベンチマークでは, 変換器と非変換器の両アーキテクチャ, および非モーダルおよびマルチモーダルデータにまたがって, 最先端の結果が得られた。
論文参考訳（メタデータ） (2024-03-05T06:23:55Z)
FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文参考訳（メタデータ） (2023-09-01T09:40:36Z)
Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual Bandits [82.28442917447643]
悲観的OPOのための最初の一般オラクル効率アルゴリズムを提案する。従来の悲観的アプローチと類似した統計的保証を得る。我々は多種多様な構成の非正規化OPOに対して優位性を示す。
論文参考訳（メタデータ） (2023-06-13T17:29:50Z)
Multi-user Co-inference with Batch Processing Capable Edge Server [26.813145949399427]
エネルギー制約のあるモバイルデバイスが推論タスクをGPUでエッジサーバにオフロードするという,新たなシナリオに注目した。推論タスクは、オフロードとスケジューリングのより細かい粒度のためにサブタスクに分割される。各ユーザのオフロードポリシを独立して最適化し,同じサブタスクをすべてひとつのバッチで集約することが最適であることが証明された。実験の結果、IP-SSAはオフライン環境でのユーザエネルギー消費を94.9%削減することがわかった。
論文参考訳（メタデータ） (2022-06-03T15:40:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。