論文の概要: Agent.xpu: Efficient Scheduling of Agentic LLM Workloads on Heterogeneous SoC
- arxiv url: http://arxiv.org/abs/2506.24045v1
- Date: Mon, 30 Jun 2025 16:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.163716
- Title: Agent.xpu: Efficient Scheduling of Agentic LLM Workloads on Heterogeneous SoC
- Title(参考訳): Agent.xpu: 異種SoC上でのエージェントLDMワークロードの効率的なスケジューリング
- Authors: Xinming Wei, Jiahao Zhang, Haoran Li, Jiayu Chen, Rui Qu, Maoliang Li, Xiang Chen, Guojie Luo,
- Abstract要約: 本稿では,メモリ統一ヘテロジニアス SOC 上でのエージェント LLM ワークロードの効率的なサービスシステムである Agent.xpu について紹介する。
Agent.xpuは専用のオフラインプロファイリングにより、アフィニティ誘導弾性加速器マッピングのためにモデルカーネルを融合・チャンクする異種実行グラフを最初に構築した。
実行時に、そのオンラインスケジューラは、粒度の細かいカーネルレベルのプリエンプションを可能にし、リアクティブタスクの応答性を保証する。
- 参考スコア(独自算出の注目度): 11.82567747365518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of agentic Large Language Models (LLMs) on personal devices introduces a new class of workloads characterized by a dichotomy of objectives. Reactive tasks, initiated by users, demand immediate, low-latency responses, while proactive tasks operate invisibly and prioritize throughput. Existing on-device LLM engines, designed for isolated inferences, fail to efficiently manage these concurrent and conflicting requests on consumer-grade heterogeneous SoCs with CPU, integrated GPU, and NPU. This paper introduces Agent.xpu, an efficient serving system for agentic LLM workloads on memory-unified heterogeneous SoCs. With dedicated offline profiling, Agent.xpu first constructs a heterogeneous execution graph, which fuses and chunks model kernels for affinity-guided, elastic accelerator mapping with predictive kernel annotation. At runtime, its online scheduler enables fine-grained, kernel-level preemption to guarantee the responsiveness of reactive tasks. To maximize SoC utilization, it adopts slack-aware kernel backfill to opportunistically append proactive tasks, and mitigates NPU-iGPU contention via bandwidth-aware dispatch. Evaluation on an Intel Core Ultra SoC shows that Agent.xpu achieves 4.6$\times$ lower latency for reactive tasks and sustains 1.6$\times$-6.8$\times$ higher throughput for proactive tasks compared to state-of-the-art inference engines.
- Abstract(参考訳): パーソナルデバイス上でのエージェント型大規模言語モデル(LLM)の普及は、目的の二分法を特徴とする新しいタイプのワークロードを導入している。
ユーザが開始したリアクティブタスクは即時かつ低レイテンシの応答を要求する一方で、アクティブタスクは不可視的に動作し、スループットを優先する。
既存のデバイス上でのLLMエンジンは、分離された推論のために設計されており、CPU、GPU、NPUを使用して、コンシューマグレードの異種SoCに対するこれらの並列および競合する要求を効率的に管理することができない。
本稿では,メモリ統一ヘテロジニアスSoC上でのエージェントLDMワークロードの効率的なサービスシステムであるAgent.xpuを紹介する。
Agent.xpuは専用のオフラインプロファイリングにより、まず不均一な実行グラフを構築し、モデルカーネルを融合し、予測カーネルアノテーションでアフィニティ誘導された弾性加速器マッピングのためにチャンクする。
実行時に、そのオンラインスケジューラは、粒度の細かいカーネルレベルのプリエンプションを可能にし、リアクティブタスクの応答性を保証する。
SoCの利用を最大化するために、Slack-awareカーネルバックフィルを採用して、積極的にタスクを付加し、帯域幅対応のディスパッチを通じてNPU-iGPU競合を緩和する。
Intel Core Ultra SoCの評価によると、Agent.xpuはリアクティブタスクのレイテンシを4.6$\times$、1.6$\times$-6.8$\times$、最先端の推論エンジンよりも高いスループットを実現している。
関連論文リスト
- Real-Time Execution of Action Chunking Flow Policies [49.1574468325115]
本稿では,アクションインタラクションシステムの非同期実行を可能にする新しい推論時アルゴリズムを提案する。
これは、再トレーニングなしでボックスから実行する拡散またはVLAベースのシステムに適用できる。
その結果、RTCは高速で、性能が高く、推論操作に対して一意に堅牢であることがわかった。
論文 参考訳(メタデータ) (2025-06-09T01:01:59Z) - EcoAgent: An Efficient Edge-Cloud Collaborative Multi-Agent Framework for Mobile Automation [36.08217588070538]
マルチモーダル(multimodal)な大規模言語モデル((M)LLM)をベースとするクラウドベースのモバイルエージェントは、強力な推論能力を提供するが、レイテンシとコストに悩まされる。
textbfEdge-textbfCloud ctextbfOllaborative multi-agent framework for mobile automation。
EcoAgentはクラウドベースの計画エージェントとエッジベースの2つのエージェント – アクション実行のための実行エージェントと結果を検証する監視エージェント – のクローズドループコラボレーションを特徴としている。
論文 参考訳(メタデータ) (2025-05-08T17:31:20Z) - POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Multi-user Co-inference with Batch Processing Capable Edge Server [26.813145949399427]
エネルギー制約のあるモバイルデバイスが推論タスクをGPUでエッジサーバにオフロードするという,新たなシナリオに注目した。
推論タスクは、オフロードとスケジューリングのより細かい粒度のためにサブタスクに分割される。
各ユーザのオフロードポリシを独立して最適化し,同じサブタスクをすべてひとつのバッチで集約することが最適であることが証明された。
実験の結果、IP-SSAはオフライン環境でのユーザエネルギー消費を94.9%削減することがわかった。
論文 参考訳(メタデータ) (2022-06-03T15:40:32Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。