論文の概要: $E^3$-Agent: An Executable and Evolving Agent for Resource Management of Edge Generative Inference
- arxiv url: http://arxiv.org/abs/2605.27428v1
- Date: Thu, 21 May 2026 12:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.261138
- Title: $E^3$-Agent: An Executable and Evolving Agent for Resource Management of Edge Generative Inference
- Title(参考訳): E^3$-Agent:エッジ生成推論のリソース管理のための実行可能で進化的なエージェント
- Authors: Rui Bao, Yaping Sun, Zhiyong Chen, Feng Yang, Meixia Tao, Nan Li, Wenjun Zhang,
- Abstract要約: E3$-Agentは、エッジ人工知能生成コンテンツ(AIGC)リソース管理のための進化的エージェントである。
Agentは実行時のフィードバックからオンラインで学び、未知の時間変化のサービスタイムマッピングに継続的に適応する。
- 参考スコア(独自算出の注目度): 39.00570828094742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Edge deployments of generative inference increasingly face two practical realities: per-device per-model performance is often unknown at deployment time, and it is non-stationary due to user-driven semantic events, background load, and device churn. Consequently, a resource manager that is tuned offline under a fixed regime can become brittle and expensive to maintain. This paper presents $E^3$-Agent, an executable and evolving agent for edge artificial intelligence generated content (AIGC) resource management. $E^3$-Agent separates a fast-path router that makes millisecond-level dispatch decisions from a slow-path, event-driven large language model (LLM) meta-controller that mitigates regime shifts through a small, explicit control surface exposed via a tool interface, including risk gating, router configuration, and rapid performance calibration. The agent learns online from execution feedback and continuously adapts to unknown and time-varying service-time mappings. We evaluate $E^3$-Agent in a discrete-event simulator driven by MLPerf-derived device-model measurement priors, covering cold-start warmup and three dynamic regimes: semantic dynamics, device churn, and hidden drift. Across the dynamic scenarios, $E^3$-Agent reduces average latency by 65%-73% compared to the best static baseline, stays within 7%-10% of an online full-information Oracle used for evaluation, and effectively suppresses stutter rate under semantic degradation.
- Abstract(参考訳): 生成推論のエッジデプロイメントは、デプロイ時にデバイス毎のパフォーマンスが不明な場合が多いため、ユーザ主導のセマンティックイベント、バックグラウンドロード、デバイスチャーンによる非定常的な2つの現実に直面している。
そのため、固定状態下でオフラインでチューニングされるリソースマネージャは、不安定でメンテナンスに費用がかかる可能性がある。
本稿では、エッジ人工知能生成コンテンツ(AIGC)リソース管理のための実行可能で進化するエージェントであるE^3$-Agentについて述べる。
E^3$-Agentは、ミリ秒レベルのディスパッチ決定を遅いパス、イベント駆動の大規模言語モデル(LLM)メタコントローラから分離する高速パスルータである。
エージェントは実行時のフィードバックからオンラインで学び、未知の時間変化のサービスタイムマッピングに継続的に適応する。
MLPerf由来のデバイスモデル測定により駆動される離散イベントシミュレータのE^3$-Agentの評価を行い, 冷間開始ウォームアップと3つの動的状態(セマンティックダイナミクス, デバイスチャーン, 隠れドリフト)について検討した。
動的シナリオ全体にわたって、$E^3$-Agentは、最高の静的ベースラインと比較して平均レイテンシを65%-73%削減し、Oracleが評価に使用したオンラインフルインプットの7%~10%以内に留まり、セマンティックな劣化下でのスタブレートを効果的に抑制する。
関連論文リスト
- ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - Step-level Optimization for Efficient Computer-use Agents [51.29573359027217]
我々は、強力なコンピュータ利用エージェントは、実際は高価で遅いと論じている。
本稿では,コンピュータ利用エージェントのためのイベント駆動ステップレベルカスケードを提案する。
論文 参考訳(メタデータ) (2026-04-29T19:59:36Z) - Efficient and Interpretable Multi-Agent LLM Routing via Ant Colony Optimization [58.59491516762626]
マルチエージェントシステム(MAS)のための効率的かつ解釈可能なルーティングフレームワークAMRO-Sを提案する。
AMRO-Sは、意味条件付き経路選択問題としてMASルーティングをモデル化し、3つのキーメカニズムを通してルーティング性能を向上させる。
5つの公開ベンチマークと高速ストレステストによる大規模な実験により、AMRO-Sは強いルーティングベースラインに対する品質-コストトレードオフを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-03-13T12:26:05Z) - AgentCgroup: Understanding and Controlling OS Resources of AI Agents [2.8139711959925244]
AIエージェントは、サンドボックスコンテナ内でさまざまなツールコールを実行するマルチテナントクラウド環境にますますデプロイされている。
サンドボックス型AI符号化エージェントにおけるOSレベルの資源動態の系統的特徴について述べる。
予備評価は, マルチテナント分離の改善と資源廃棄物の削減を実証する。
論文 参考訳(メタデータ) (2026-02-10T02:37:42Z) - EvoRoute: Experience-Driven Self-Routing LLM Agent Systems [100.64399490164959]
EvoRouteは、静的で事前定義されたモデルの割り当てを超越する、自己進化型のモデルルーティングパラダイムである。
挑戦的なエージェントベンチマークの実験によると、既製のエージェントシステムに統合されたEvoRouteは、システムのパフォーマンスを維持または向上するだけでなく、実行コストを最大80%削減し、レイテンシを70%以上削減する。
論文 参考訳(メタデータ) (2026-01-06T04:06:46Z) - Jenius Agent: Towards Experience-Driven Accuracy Optimization in Real-World Scenarios [0.9069311779417014]
本稿では,実体験に基づくエージェントフレームワークを提案する。
Jenius-Agentという名前のエンドツーエンドフレームワークは、3つの重要な最適化と統合されている。
実験によると、タスクの精度が20%向上し、トークンコストが削減され、レスポンスレイテンシが低下し、起動障害が発生している。
論文 参考訳(メタデータ) (2026-01-05T07:35:12Z) - Astraea: A State-Aware Scheduling Engine for LLM-Powered Agents [12.884297990127985]
Astraeaは、最適化をローカルセグメントからグローバルリクエストライフサイクルに移行するように設計されたサービスエンジンである。
これは、リクエストの履歴状態と将来の予測を統合する、ステートアウェアで階層的なスケジューリングアルゴリズムを採用している。
Astraea は平均 JCT を基準法に比べて 25.5% 削減する。
論文 参考訳(メタデータ) (2025-12-16T06:55:10Z) - Structure-aware reinforcement learning for node-overload protection in
mobile edge computing [3.3865605512957457]
本研究は,エッジノードの過負荷を防止するための適応型入出力制御ポリシーを提案する。
このフレームワークは,ノードオーバーロード保護問題に対して,割引価格設定で動作するように拡張する。
実験により, SALMUTにより得られた全割引コストは, 最先端の深部RLアルゴリズムに類似していることが判明した。
論文 参考訳(メタデータ) (2021-06-29T18:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。