論文の概要: SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters
- arxiv url: http://arxiv.org/abs/2605.00528v1
- Date: Fri, 01 May 2026 09:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.91891
- Title: SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters
- Title(参考訳): SAGA: GPUクラスタ上のAIエージェント推論のためのワークフロー-原子スケジューリング
- Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu,
- Abstract要約: 本稿では,複合AIワークロードのプログラムレベルスケジューリングへのシフトを提案する。
本稿では,この抽象化を実現する分散スケジューラSAGAを提案する。
- 参考スコア(独自算出の注目度): 13.891522069967507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents execute tens to hundreds of chained LLM calls per task, yet GPU schedulers treat each call as independent, discarding gigabytes of intermediate state between steps and inflating end-to-end latency by 3-8x. We argue that this request-level abstraction is fundamentally mismatched to compound AI workloads, and propose a shift to program-level scheduling: treating the entire agent workflow (not individual inference calls) as the first-class schedulable unit. We present SAGA, a distributed scheduler that implements this abstraction through three mechanisms: (1) Agent Execution Graphs that capture workflow structure to predict KV cache reuse across tool-call boundaries, achieving within 1.31x of Bélády's optimal offline policy; (2) session-affinity batching with work stealing that co-locates correlated requests while maintaining global load balance; and (3) Agent Fair Share, a task-completion-time fairness metric with provable bounded-deviation guarantees. On a 64-GPU cluster serving SWE-bench coding agents and WebArena browser tasks, SAGA reduces task completion time by 1.64x (geometric mean, p < 0.001) over vLLM v0.15.1 with prefix caching and affinity routing, while improving GPU memory utilization by 1.22x and achieving 99.2% SLO attainment under multi-tenant interference. These latency gains come at a quantified cost: approximately 30% lower peak throughput than throughput-optimal batch scheduling, a tradeoff appropriate for the latency-sensitive interactive deployments that dominate compound AI usage. Our results demonstrate that workflow-aware scheduling is essential for efficient compound AI serving.
- Abstract(参考訳): AIエージェントはタスク毎に数十から数百のLLMコールを実行するが、GPUスケジューラは各コールを独立して扱い、ステップ間で1ギガバイトの中間状態を破棄し、エンドツーエンドのレイテンシを3~8倍に膨らませる。
この要求レベルの抽象化は、基本的に複合AIワークロードと不一致であり、プログラムレベルのスケジューリングへのシフトを提案する。
我々は,この抽象化を実現する分散スケジューラであるSAGAについて,(1)ツールコール境界を越えてKVキャッシュの再利用を予測するためのワークフロー構造をキャプチャするエージェント実行グラフ,(2)グローバルな負荷バランスを維持しながら,相関要求を共配置するジョブを盗むセッションアフィニティバッチ,(3)タスクコンプリート時フェアネス基準であるエージェントフェアシェアを提案する。
SWE-benchコーディングエージェントとWebArenaブラウザタスクを提供する64GPUクラスタ上で、SAGAは、プレフィックスキャッシュと親和性ルーティングを備えたvLLM v0.15.1上のタスク完了時間を1.64倍(幾何学平均、p < 0.001)削減し、GPUメモリの利用率を1.22倍改善し、マルチテナント干渉下で99.2%のSLO達成を達成する。
これらのレイテンシの上昇は、定量化されたコストで実現される。スループット最適化のバッチスケジューリングよりも、ピークスループットが約30%削減される。
この結果から,ワークフローを意識したスケジューリングが,効率的な複合AI提供に不可欠であることが示唆された。
関連論文リスト
- A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - Chimera: Latency- and Performance-Aware Multi-agent Serving for Heterogeneous LLMs [62.17306142810532]
ヘテロジニアスLSMクラスタ上で動作するマルチエージェントワークフローの予測スケジューリングシステムであるChimeraを提案する。
Chimeは最高のレイテンシをトレースし、エンドツーエンドのレイテンシを1.2-2.4$times$で削減し、タスクパフォーマンスを平均8.0-9.5ポイント改善する。
論文 参考訳(メタデータ) (2026-03-23T17:01:42Z) - Efficient Mixture-of-Agents Serving via Tree-Structured Routing, Adaptive Pruning, and Dependency-Aware Prefill-Decode Overlap [15.352230356342366]
混合エージェント(MoA)推論は、密度の高いエージェント間通信と低いハードウェア利用に悩まされる。
本稿では,アルゴリズム・システムの共同設計を通じて,これらのボトルネックをターゲットとしたサービス設計を提案する。
論文 参考訳(メタデータ) (2025-12-19T23:06:58Z) - Astraea: A State-Aware Scheduling Engine for LLM-Powered Agents [12.884297990127985]
Astraeaは、最適化をローカルセグメントからグローバルリクエストライフサイクルに移行するように設計されたサービスエンジンである。
これは、リクエストの履歴状態と将来の予測を統合する、ステートアウェアで階層的なスケジューリングアルゴリズムを採用している。
Astraea は平均 JCT を基準法に比べて 25.5% 削減する。
論文 参考訳(メタデータ) (2025-12-16T06:55:10Z) - Agent.xpu: Efficient Scheduling of Agentic LLM Workloads on Heterogeneous SoC [11.82567747365518]
本稿では,メモリ統一ヘテロジニアス SOC 上でのエージェント LLM ワークロードの効率的なサービスシステムである Agent.xpu について紹介する。
Agent.xpuは専用のオフラインプロファイリングにより、アフィニティ誘導弾性加速器マッピングのためにモデルカーネルを融合・チャンクする異種実行グラフを最初に構築した。
実行時に、そのオンラインスケジューラは、粒度の細かいカーネルレベルのプリエンプションを可能にし、リアクティブタスクの応答性を保証する。
論文 参考訳(メタデータ) (2025-06-30T16:50:48Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Multi-user Co-inference with Batch Processing Capable Edge Server [26.813145949399427]
エネルギー制約のあるモバイルデバイスが推論タスクをGPUでエッジサーバにオフロードするという,新たなシナリオに注目した。
推論タスクは、オフロードとスケジューリングのより細かい粒度のためにサブタスクに分割される。
各ユーザのオフロードポリシを独立して最適化し,同じサブタスクをすべてひとつのバッチで集約することが最適であることが証明された。
実験の結果、IP-SSAはオフライン環境でのユーザエネルギー消費を94.9%削減することがわかった。
論文 参考訳(メタデータ) (2022-06-03T15:40:32Z) - Communication Contention Aware Scheduling of Multiple Deep Learning
Training Jobs [17.45154289084637]
我々は、DDLジョブをDAG(Directed Acyclic Graphs)として整理する新しいDDLジョブスケジューリングフレームワークを確立する。
次に、GPU利用のバランスを保ち、各ジョブに割り当てられたGPUを統合するための効率的なアルゴリズム LWF-$kappa$ を提案する。
LWF-$kappa$は、古典的なファーストフィットアルゴリズムよりも最大$1.59タイムで改善できることを示す。
論文 参考訳(メタデータ) (2020-02-24T07:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。