論文の概要: Efficient LLM Serving for Agentic Workflows: A Data Systems Perspective
- arxiv url: http://arxiv.org/abs/2603.16104v1
- Date: Tue, 17 Mar 2026 04:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.095026
- Title: Efficient LLM Serving for Agentic Workflows: A Data Systems Perspective
- Title(参考訳): エージェントワークフローのための効率的なLLMサービング:データシステムの観点から
- Authors: Noppanat Wadlom, Junyi Shen, Yao Lu,
- Abstract要約: Heliumはワークフロー対応のサービスフレームワークで、エージェントワークロードをクエリプランとしてモデル化し、LLM呼び出しを第一級演算子として扱う。
Heliumは従来のクエリ最適化の原則をLLMサービスにブリッジし、最先端のエージェントサービスシステムよりも最大1.56倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 3.9457939396735573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic workflows are composed of sequences of interdependent Large Language Model (LLM) calls, and they have become a dominant workload in modern AI systems. These workflows exhibit extensive redundancy from overlapping prompts and intermediate results due to speculative and parallel exploration. Existing LLM serving systems, such as vLLM, focus on optimizing individual inference calls and overlook cross-call dependencies, leading to significant inefficiencies. This paper rethinks LLM and agent serving from a data systems perspective and introduces Helium, a workflow-aware serving framework that models agentic workloads as query plans and treats LLM invocations as first-class operators. Helium integrates proactive caching and cache-aware scheduling to maximize reuse across prompts, KV states, and workflows. Through these techniques, Helium bridges classic query optimization principles with LLM serving, achieving up to 1.56x speedup over state-of-the-art agent serving systems on various workloads. Our results demonstrate that end-to-end optimization across workflows is essential for scalable and efficient LLM-based agents.
- Abstract(参考訳): エージェントワークフローは、相互依存型Large Language Model(LLM)コールのシーケンスで構成されており、現代のAIシステムにおいて支配的なワークロードとなっている。
これらのワークフローは、重複するプロンプトと、投機的および並列探索による中間的な結果から広範な冗長性を示す。
既存のLLMサービスシステムであるvLLMは、個々の推論呼び出しの最適化とコール間の依存関係の見落としに重点を置いており、大きな非効率をもたらす。
本稿では、LLMとエージェントをデータシステムの観点から再考し、エージェントワークロードをクエリプランとしてモデル化し、LLM呼び出しを第一級演算子として扱うワークフロー対応サービスフレームワークHeliumを紹介する。
Heliumはプロアクティブキャッシュとキャッシュ対応スケジューリングを統合し、プロンプト、KVステート、ワークフロー間の再利用を最大化する。
これらの技術を通じて、Heliumは従来のクエリ最適化の原則をLLMサービスでブリッジし、さまざまなワークロード上の最先端エージェントサービスシステムよりも最大1.56倍のスピードアップを実現している。
この結果から,ワークフロー間のエンドツーエンドの最適化が,スケーラブルで効率的なLCMエージェントに不可欠であることが示唆された。
関連論文リスト
- LLM for Large-Scale Optimization Model Auto-Formulation: A Lightweight Few-Shot Learning Approach [10.44190976207354]
LEAN-LLM-OPTは大規模なOPTimizationオートフォーミュレーションのためのワークフローフレームワークである。
モデリングタスクを構造化されたサブタスクに分解し、機械的なデータ処理操作を補助ツールにオフロードする。
大規模最適化モデリングタスクにおいて高い性能を達成し、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2026-01-14T17:09:57Z) - Difficulty-Aware Agentic Orchestration for Query-Specific Multi-Agent Workflows [5.376980683850103]
本稿では,予測困難により誘導されるクエリ固有多エージェントを生成するDifficulty-Aware Agentic Orchestration (DAAO)を提案する。
DAAOは、精度と推論効率の両方において、従来のマルチエージェントシステムを上回る。
論文 参考訳(メタデータ) (2025-09-14T03:57:43Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency [20.33467627548677]
大規模言語モデル(LLM)は人気が高まり、商用アプリケーションで広く使われている。
LLMサービスシステムにおいて、エンドツーエンドのレイテンシに影響を及ぼす大きなボトルネックを特定するために、詳細な分析を行う。
次に,資源効率の高いLLMサービスのための最適化システムであるScaleLLMを提案する。
論文 参考訳(メタデータ) (2024-07-23T23:37:29Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。