論文の概要: Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints
- arxiv url: http://arxiv.org/abs/2504.11320v1
- Date: Tue, 15 Apr 2025 16:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:14.460187
- Title: Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints
- Title(参考訳): LLM推論の最適化: メモリ制約付きFluid-Guided Online Scheduling
- Authors: Ruicheng Ao, Gan Luo, David Simchi-Levi, Xinshang Wang,
- Abstract要約: 大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
- 参考スコア(独自算出の注目度): 14.341123057506827
- License:
- Abstract: Large Language Models (LLMs) are indispensable in today's applications, but their inference procedure -- generating responses by processing text in segments and using a memory-heavy Key-Value (KV) cache -- demands significant computational resources, particularly under memory constraints. This paper formulates LLM inference optimization as a multi-stage online scheduling problem where sequential prompt arrivals and KV cache growth render conventional scheduling ineffective. We develop a fluid dynamics approximation to provide a tractable benchmark that guides algorithm design. Building on this, we propose the Waiting for Accumulated Inference Threshold (WAIT) algorithm, which uses multiple thresholds to schedule incoming prompts optimally when output lengths are known, and extend it to Nested WAIT for cases with unknown output lengths. Theoretical analysis shows that both algorithms achieve near-optimal performance against the fluid benchmark in heavy traffic conditions, balancing throughput, latency, and Time to First Token (TTFT). Experiments with the Llama-7B model on an A100 GPU using both synthetic and real-world datasets demonstrate improved throughput and reduced latency relative to established baselines like vLLM and Sarathi. This work bridges operations research and machine learning, offering a rigorous framework for the efficient deployment of LLMs under memory constraints.
- Abstract(参考訳): 大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、その推論手順 -- セグメントでテキストを処理し、メモリ重大なキーバリュー(KV)キャッシュを使用してレスポンスを生成する -- は、特にメモリ制約の下で、かなりの計算資源を必要とする。
本稿では,複数段階のオンラインスケジューリング問題としてLCM推論の最適化を定式化し,逐次的なプロンプトの到着とKVキャッシュの増大が従来のスケジューリングを非効率にする。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
提案手法は,複数のしきい値を用いて,出力長が既知の場合の入力プロンプトを最適にスケジューリングし,未知の出力長を持つ場合のNested WAITに拡張する。
理論的解析により,両アルゴリズムは,スループット,レイテンシ,TTFT (Time to First Token) のバランスをとることにより,重交通条件下での流体ベンチマークに対してほぼ最適性能を達成した。
合成データセットと実世界のデータセットの両方を使用したA100 GPU上のLlama-7Bモデルによる実験では、vLLMやSarathiのような確立されたベースラインと比較して、スループットの向上とレイテンシの低減が示されている。
この作業は、研究と機械学習を橋渡しし、メモリ制約下でのLLMの効率的なデプロイのための厳格なフレームワークを提供する。
関連論文リスト
- Online Scheduling for LLM Inference with KV Cache Constraints [22.155429544207827]
大規模言語モデル(LLM)推論は、レイテンシとリソース利用を最適化するための効率的なスケジューリングを必要とする集約的なプロセスである。
KVキャッシュのメモリを効果的に管理しながら、推論遅延を最小限に抑える新しいスケジューリングアルゴリズムを提案する。
我々の成果は、より持続的で費用対効果の高いLLMデプロイメントへの道筋を提供する。
論文 参考訳(メタデータ) (2025-02-10T23:11:44Z) - ALISE: Accelerating Large Language Model Serving with Speculative Scheduling [7.367068885621016]
大規模言語モデル(LLM)は、現代の人工知能(AGI)の展望における革命的な進歩を表している。
本稿では, ALISE という新しい効率的な LLM 推論サービスフレームワークを提案する。
ALISEは,AlpacaデータセットとShareGPTデータセットと同じレイテンシ制約の下で,最大1.8xと2.1xの推論処理のスループットを向上することを示す。
論文 参考訳(メタデータ) (2024-10-31T00:58:11Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Unlocking Real-Time Fluorescence Lifetime Imaging: Multi-Pixel Parallelism for FPGA-Accelerated Processing [2.369919866595525]
FPGAベースのハードウェアアクセラレーターを用いてリアルタイムFLIを実現する手法を提案する。
我々は、時間分解カメラと互換性のあるFPGAボード上に、GRUベースのシーケンス・ツー・シーケンス(Seq2Seq)モデルを実装した。
GRUベースのSeq2Seqモデルと、Seq2SeqLiteと呼ばれる圧縮されたバージョンを統合することで、複数のピクセルを並列に処理することができ、シーケンシャル処理と比較して遅延を低減できた。
論文 参考訳(メタデータ) (2024-10-09T18:24:23Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Edge Intelligence Optimization for Large Language Model Inference with Batching and Quantization [20.631476379056892]
大規模言語モデル(LLM)がこの運動の最前線にある。
LLMはクラウドホスティングを必要とするため、プライバシやレイテンシ、使用制限に関する問題が発生する。
LLM推論に適したエッジインテリジェンス最適化問題を提案する。
論文 参考訳(メタデータ) (2024-05-12T02:38:58Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。