論文の概要: Scepsy: Serving Agentic Workflows Using Aggregate LLM Pipelines
- arxiv url: http://arxiv.org/abs/2604.15186v1
- Date: Thu, 16 Apr 2026 16:15:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.999973
- Title: Scepsy: Serving Agentic Workflows Using Aggregate LLM Pipelines
- Title(参考訳): Scepsy: Aggregate LLM Pipelinesを使用してエージェントワークフローを実行する
- Authors: Marcel Wagenländer, Otto White, Britannio Jarrett, Pedro Silvestre, Yanda Tao, Guo Li, Huanzhou Zhu, Llúis Vilanova, Peter Pietzuch,
- Abstract要約: 任意のマルチLLMエージェントをGPUクラスタに効率的にスケジュールする新しいエージェントサービスシステムについて述べる。
Scepsyは、LLMを独立して最適化するシステムと比較して、最大2.4倍のスループットと27倍のレイテンシを実現している。
- 参考スコア(独自算出の注目度): 0.7551404527457958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic workflows carry out complex tasks by orchestrating multiple large language models (LLMs) and tools. Serving such workflows at a target throughput with low latency is challenging because they can be defined using arbitrary agentic frameworks and exhibit unpredictable execution times: execution may branch, fan-out, or recur in data-dependent ways. Since LLMs in workflows often outnumber available GPUs, their execution also leads to GPU oversubscription. We describe Scepsy, a new agentic serving system that efficiently schedules arbitrary multi-LLM agentic workflows onto a GPU cluster. Scepsy exploits the insight that, while agentic workflows have unpredictable end-to-end latencies, the shares of each LLM's total execution times are comparatively stable across executions. Scepsy decides on GPU allocations based on these aggregate shares: first, it profiles the LLMs under different parallelism degrees. It then uses these statistics to construct an Aggregate LLM Pipeline, which is a lightweight latency/throughput predictor for allocations. To find a GPU allocation that minimizes latency while achieving a target throughput, Scepsy uses the Aggregate LLM Pipeline to explore a search space over fractional GPU shares, tensor parallelism degrees, and replica counts. It uses a hierarchical heuristic to place the best allocation onto the GPU cluster, minimizing fragmentation, while respecting network topology constraints. Our evaluation on realistic agentic workflows shows that Scepsy achieves up to 2.4x higher throughput and 27x lower latency compared to systems that optimize LLMs independently or rely on user-specified allocations.
- Abstract(参考訳): エージェントワークフローは、複数の大きな言語モデル(LLM)とツールをオーケストレーションすることで、複雑なタスクを実行する。
このようなワークフローを低レイテンシでターゲットスループットで実行することは、任意のエージェントフレームワークを使用して定義でき、予測不可能な実行時間を示すため、難しい。
ワークフローにおけるLLMは、しばしば利用可能なGPUよりも多いため、その実行はGPUのオーバーサブスクライブにつながる。
我々は、任意のマルチLLMエージェントワークフローをGPUクラスタに効率的にスケジュールする新しいエージェントサービスシステムであるScypsyについて説明する。
Scepsyはエージェントワークフローは予測不可能なエンドツーエンドのレイテンシを持つが、それぞれのLCMの総実行時間の共有は実行全体で比較的安定している、という洞察を生かしている。
Scepsyは、これらの集約共有に基づいてGPUアロケーションを決定する。
次に、これらの統計データを使用してアグリゲートLLM Pipelineを構築し、アロケーションのための軽量なレイテンシ/スループット予測器である。
ターゲットスループットを達成しながらレイテンシを最小限にするGPUアロケーションを見つけるために、Scypsyでは、Aggregate LLM Pipelineを使用して、一部のGPUシェア、テンソル並列化度、レプリカカウントの検索スペースを探索する。
階層的ヒューリスティックを使用して、最高のアロケーションをGPUクラスタに配置し、ネットワークトポロジの制約を尊重しながらフラグメンテーションを最小限にする。
エージェントワークフローを現実的に評価したところ,Scypsy は LLM を独立に最適化したり,ユーザ指定のアロケーションに依存するシステムに比べて最大2.4倍のスループットと27倍のレイテンシを実現していることがわかった。
関連論文リスト
- Chimera: Latency- and Performance-Aware Multi-agent Serving for Heterogeneous LLMs [62.17306142810532]
ヘテロジニアスLSMクラスタ上で動作するマルチエージェントワークフローの予測スケジューリングシステムであるChimeraを提案する。
Chimeは最高のレイテンシをトレースし、エンドツーエンドのレイテンシを1.2-2.4$times$で削減し、タスクパフォーマンスを平均8.0-9.5ポイント改善する。
論文 参考訳(メタデータ) (2026-03-23T17:01:42Z) - Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving [2.6336040306318274]
LLM(Large Language Model)アダプタは、低コストのモデル特殊化を可能にする。
LLMアダプタは、数百のアダプタを同時にホストしなければならない分散サービスシステムにおいて、複雑なキャッシュとスケジューリングの課題を導入する。
本稿では,最小GPU数でワークロードを処理するアダプタ配置を計算したデータ駆動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-27T14:22:51Z) - Performance of Small Language Model Pretraining on FABRIC: An Empirical Study [2.2070336216767763]
本研究では,学習者が無償で試用できる実験台上での小型LLMの事前学習技術の性能について検討する。
我々は,GPT-2ミディアムモデルと大規模モデルを使用し,オープンソースパッケージであるAlpaとRayを用いて事前訓練を行った。
我々は,GPUが地理的に分散された場合,演算子内並列性と演算子間並列性を一括最適化したAlpaの実行計画が,常に最善を尽くしたことを観察した。
論文 参考訳(メタデータ) (2026-02-02T17:58:47Z) - VectorLiteRAG: Latency-Aware and Fine-Grained Resource Partitioning for Efficient RAG [2.0929459605817193]
Retrieval-Augmented Generation (RAG) システムは、ベクトル類似性探索と大言語モデル(LLM)を組み合わせてコンテキスト対応の応答を提供する。
本稿では,VectorLiteRAGを提案する。VectorLiteRAGは,追加のハードウェアリソースを必要とせず,遅延に順応する推論を実現する。
論文 参考訳(メタデータ) (2025-04-11T19:18:41Z) - Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。
リクエストはサーバ上のジョブをスケジューリングする重要なステップです。
リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。
我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文 参考訳(メタデータ) (2024-12-03T03:16:12Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - An LLM Compiler for Parallel Function Calling [68.04566807806071]
我々は,複数の関数呼び出しを効率的にオーケストレーションするために並列に関数を実行するLLMCompilerを紹介する。
ReActと比較して、一貫したレイテンシの高速化が3.7倍、コストの削減が6.7倍、精度が9%向上している。
論文 参考訳(メタデータ) (2023-12-07T18:32:04Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。