論文の概要: Astraea: A State-Aware Scheduling Engine for LLM-Powered Agents
- arxiv url: http://arxiv.org/abs/2512.14142v1
- Date: Tue, 16 Dec 2025 06:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.621017
- Title: Astraea: A State-Aware Scheduling Engine for LLM-Powered Agents
- Title(参考訳): Astraea: LLMエージェント用のステートアウェアスケジューリングエンジン
- Authors: Hongqiu Ni, Jiabao Zhang, Guopeng Li, Zilong Wang, Ruiqi Wu, Chi Zhang, Haisheng Tan,
- Abstract要約: Astraeaは、最適化をローカルセグメントからグローバルリクエストライフサイクルに移行するように設計されたサービスエンジンである。
これは、リクエストの履歴状態と将来の予測を統合する、ステートアウェアで階層的なスケジューリングアルゴリズムを採用している。
Astraea は平均 JCT を基準法に比べて 25.5% 削減する。
- 参考スコア(独自算出の注目度): 12.884297990127985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly being deployed as intelligent agents. Their multi-stage workflows, which alternate between local computation and calls to external network services like Web APIs, introduce a mismatch in their execution pattern and the scheduling granularity of existing inference systems such as vLLM. Existing systems typically focus on per-segment optimization which prevents them from minimizing the end-to-end latency of the complete agentic workflow, i.e., the global Job Completion Time (JCT) over the entire request lifecycle. To address this limitation, we propose Astraea, a service engine designed to shift the optimization from local segments to the global request lifecycle. Astraea employs a state-aware, hierarchical scheduling algorithm that integrates a request's historical state with future predictions. It dynamically classifies requests by their I/O and compute intensive nature and uses an enhanced HRRN policy to balance efficiency and fairness. Astraea also implements an adaptive KV cache manager that intelligently handles the agent state during I/O waits based on the system memory pressure. Extensive experiments show that Astraea reduces average JCT by up to 25.5\% compared to baseline methods. Moreover, our approach demonstrates strong robustness and stability under high load across various model scales.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インテリジェントエージェントとしてますますデプロイされている。
ローカルな計算とWeb APIのような外部ネットワークサービスへの呼び出しを交互に行うマルチステージワークフローでは、実行パターンのミスマッチと、vLLMのような既存の推論システムのスケジューリングの粒度が導入されている。
既存のシステムは、通常、セグメントごとの最適化に重点を置いており、完全なエージェントワークフローのエンドツーエンドのレイテンシ、すなわち、要求ライフサイクル全体にわたるグローバルジョブ完了時間(JCT)を最小限に抑えることができる。
この制限に対処するため、ローカルセグメントからグローバル要求ライフサイクルへ最適化をシフトするように設計されたサービスエンジンであるAstraeaを提案する。
Astraeaは、リクエストの履歴状態と将来の予測を統合する、ステートアウェアで階層的なスケジューリングアルゴリズムを使用している。
リクエストをI/Oで動的に分類し、集約的な性質を計算し、HRRNポリシーを拡張して効率と公平性をバランスさせる。
Astraeaはまた、システムメモリの圧力に基づいてI/O待ち時にエージェント状態をインテリジェントに処理する適応KVキャッシュマネージャを実装している。
大規模な実験により、アストラエアはベースライン法に比べて平均 JCT を 25.5 % 減少させることが示された。
さらに,本手法は,様々なモデルスケールにわたる高負荷下での強靭性と安定性を示す。
関連論文リスト
- Deep Q-Learning-Based Intelligent Scheduling for ETL Optimization in Heterogeneous Data Environments [10.31577390735368]
本稿では,深層Q-ラーニングに基づくインテリジェントなスケジューリング最適化フレームワークを提案する。
このフレームワークはスケジュールプロセスをマルコフ決定プロセスとして定式化する。
高次元状態空間における強化学習エージェントによる適応的意思決定を可能にする。
論文 参考訳(メタデータ) (2025-12-15T07:38:47Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - Slim Scheduler: A Runtime-Aware RL and Scheduler System for Efficient CNN Inference [0.0]
Slim Schedulerは、PPO(Proximal Policy Optimization)強化学習ポリシーとアルゴリズム的、欲求的なスケジューラを統合し、スクリム可能なモデルに対する分散推論を調整する。
この階層的な設計は、検索空間の複雑さを減らし、特定のハードウェアへの過度な適合を緩和し、効率とスループットのバランスをとる。
論文 参考訳(メタデータ) (2025-10-10T05:44:05Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - A Bayesian Framework of Deep Reinforcement Learning for Joint O-RAN/MEC
Orchestration [12.914011030970814]
マルチアクセスエッジコンピューティング(MEC)は、コモディティプラットフォーム上でOpen Radio Access Network(O-RAN)と一緒に実装することで、低コストなデプロイメントを実現する。
本稿では,ベイジアンディープ強化学習(RL)を用いたO-RAN/MEC協調オーケストレーションを提案する。
論文 参考訳(メタデータ) (2023-12-26T18:04:49Z) - A Deep Recurrent-Reinforcement Learning Method for Intelligent AutoScaling of Serverless Functions [18.36339203254509]
Fは軽量で関数ベースのクラウド実行モデルを導入し、IoTエッジデータ処理や異常検出など、さまざまなアプリケーションでその妥当性を見出す。
論文 参考訳(メタデータ) (2023-08-11T04:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。