論文の概要: MARS: Efficient, Adaptive Co-Scheduling for Heterogeneous Agentic Systems
- arxiv url: http://arxiv.org/abs/2604.26963v1
- Date: Tue, 14 Apr 2026 05:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.249299
- Title: MARS: Efficient, Adaptive Co-Scheduling for Heterogeneous Agentic Systems
- Title(参考訳): MARS:不均一なエージェントシステムのための効率的適応型協調スケジューリング
- Authors: Yifei Wang, Hancheng Ye, Yechen Xu, Cong Guo, Chiyue Wei, Qinsi Wang, Dongting Li, Tingjun Chen, Hai "Helen" Li, Danyang Zhuo, Yiran Chen,
- Abstract要約: 大規模言語モデル(LLM)は、自律エージェントの実行コアとしてますます多くデプロイされている。
エージェント実行の 異種資源要求の調整が 重要なシステム課題として浮上した
我々は、効率的で適応的な協調スケジューリングシステムMARSを設計、実装する。
評価の結果,MARSは最大スループットを保ちながら,エンドツーエンドのレイテンシを最大5.94倍に削減できることがわかった。
- 参考スコア(独自算出の注目度): 22.470203759341004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as the execution core of autonomous agents rather than as standalone text generators. Agentic workloads induce a temporal shift from single-turn inference to multi-turn LLM-tool loops, and a spatial shift from chat-scale, GPU-only execution to repository-scale, GPU-CPU co-located execution. Consequently, coordinating heterogeneous resource demands of agentic execution has emerged as a critical system challenge. We design and implement MARS, an efficient and adaptive co-scheduling system that globally coordinates heterogeneous agentic workloads under coupled GPU-CPU resource pressure. By establishing holistic visibility across GPU inference and CPU tool execution via a unified information stream, an external control plane in MARS decouples admission from execution to prevent heterogeneous resource oversubscription. An internal agent-centric scheduler further minimizes the end-to-end critical path by prioritizing latency-sensitive continuations and adaptively retaining KV cache state only when warm resumption yields a latency benefit. Our evaluations show that MARS reduces end-to-end latency by up to 5.94x while maintaining nearly maximal system throughput. We further integrate MARS as the serving backend for the OpenHands coding agent framework, demonstrating its real-world effectiveness by accelerating end-to-end task completion time by up to 1.87x. Our source code will be publicly available soon.
- Abstract(参考訳): 大規模言語モデル(LLM)は、独立したテキストジェネレータとしてではなく、自律エージェントの実行コアとして、ますます多くデプロイされている。
エージェントワークロードは、単一ターン推論からマルチターンLDMツールループへの時間シフトと、チャットスケールのGPUのみの実行から、レポジトリスケールのGPU-CPU共同実行への空間シフトを誘導する。
その結果,エージェント実行における異種資源要求の調整が重要なシステム課題として浮上した。
我々は、GPU-CPUリソースの結合下で異種エージェントワークロードをグローバルにコーディネートする、効率的で適応的な協調スケジューリングシステムMARSを設計、実装する。
統一された情報ストリームを介してGPU推論とCPUツール実行の全体的可視性を確立することにより、MARS内の外部制御プレーンは、実行からの許可を分離し、異種リソースの過剰な加入を防止する。
内部エージェント中心のスケジューラは、レイテンシに敏感な継続を優先順位付けし、暖かく再消費した場合のみKVキャッシュ状態を適応的に保持することにより、エンド・ツー・エンドのクリティカルパスをさらに最小化する。
評価の結果,MARSは最大スループットを保ちながら,エンドツーエンドのレイテンシを最大5.94倍に削減できることがわかった。
我々はさらに、MARSをOpenHandsコーディングエージェントフレームワークのバックエンドとして統合し、エンドツーエンドのタスク完了時間を最大1.87倍にすることで、その実効性を実証する。
ソースコードはまもなく公開されます。
関連論文リスト
- TaxBreak: Unmasking the Hidden Costs of LLM Inference Through Overhead Decomposition [0.0]
この作業では、ホスト可視のオーケストレーションオーバーヘッドを分解するトレース駆動の方法論であるTaxBreakを紹介している。
NVIDIA H100およびH200システム上でTaxBreakを検証し、提案したホストデバイスバランス指標(HDBI)を導出する。
我々は,MoEモデルが高密度モデルよりも出力トークン当たり8~11倍のカーネルをディスパッチし,ホストバウンドワークロードでは,シングルスレッド性能が1次パラメータであることを示す。
論文 参考訳(メタデータ) (2026-03-12T21:30:07Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - Efficient Mixture-of-Agents Serving via Tree-Structured Routing, Adaptive Pruning, and Dependency-Aware Prefill-Decode Overlap [15.352230356342366]
混合エージェント(MoA)推論は、密度の高いエージェント間通信と低いハードウェア利用に悩まされる。
本稿では,アルゴリズム・システムの共同設計を通じて,これらのボトルネックをターゲットとしたサービス設計を提案する。
論文 参考訳(メタデータ) (2025-12-19T23:06:58Z) - Astraea: A State-Aware Scheduling Engine for LLM-Powered Agents [12.884297990127985]
Astraeaは、最適化をローカルセグメントからグローバルリクエストライフサイクルに移行するように設計されたサービスエンジンである。
これは、リクエストの履歴状態と将来の予測を統合する、ステートアウェアで階層的なスケジューリングアルゴリズムを採用している。
Astraea は平均 JCT を基準法に比べて 25.5% 削減する。
論文 参考訳(メタデータ) (2025-12-16T06:55:10Z) - Edge Collaborative Gaussian Splatting with Integrated Rendering and Communication [69.23838350582764]
エッジ協調(ECO-GS)では,各ユーザが小さなGSモデルに切り替えて忠実さを保証し,遠隔大GSモデルで忠実さを保証できる。
低コストのレンダリングステータスとエッジパワー割り当てを協調的に最適化する統合通信(IRAC)を提案する。
論文 参考訳(メタデータ) (2025-10-26T15:33:29Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Agent.xpu: Efficient Scheduling of Agentic LLM Workloads on Heterogeneous SoC [11.82567747365518]
本稿では,メモリ統一ヘテロジニアス SOC 上でのエージェント LLM ワークロードの効率的なサービスシステムである Agent.xpu について紹介する。
Agent.xpuは専用のオフラインプロファイリングにより、アフィニティ誘導弾性加速器マッピングのためにモデルカーネルを融合・チャンクする異種実行グラフを最初に構築した。
実行時に、そのオンラインスケジューラは、粒度の細かいカーネルレベルのプリエンプションを可能にし、リアクティブタスクの応答性を保証する。
論文 参考訳(メタデータ) (2025-06-30T16:50:48Z) - HPRM: High-Performance Robotic Middleware for Intelligent Autonomous Systems [1.7838625117601146]
決定論的協調言語Lingua Franca(LF)上に構築されたHPRM(High-Performance Robotic Middleware)について述べる。
HPRMは、大規模なペイロードの効率的なゼロコピー転送のためのインメモリオブジェクトストア、シリアライゼーションオーバーヘッドを最小限に抑えるアダプティブシリアライゼーション、ハンドシェイクレイテンシを低減するためにリアルタイムソケットを備えた熱心なプロトコルなどの最適化を採用している。
我々は、CARLAシミュレータとHPRMを統合し、オブジェクト検出作業とともに強化学習エージェントを実行することにより、HPRMの利点を実証する。
論文 参考訳(メタデータ) (2024-12-02T18:46:29Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。