論文の概要: A CPU-Centric Perspective on Agentic AI
- arxiv url: http://arxiv.org/abs/2511.00739v1
- Date: Sat, 01 Nov 2025 23:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.915908
- Title: A CPU-Centric Perspective on Agentic AI
- Title(参考訳): エージェントAIのCPU中心的展望
- Authors: Ritik Raj, Hong Wang, Tushar Krishna,
- Abstract要約: Agentic AIフレームワークは、Web検索、Pythonインタプリタ、コンテキストデータベースなど、外部ツールに埋め込まれた意思決定オーケストレータを追加する。
本稿では,エージェントAIワークロードが導入するシステムのボトルネックをCPU中心の観点から特徴づけ,理解することを目的とする。
- 参考スコア(独自算出の注目度): 8.417523196411574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic AI frameworks add a decision-making orchestrator embedded with external tools, including web search, Python interpreter, contextual database, and others, on top of monolithic LLMs, turning them from passive text oracles into autonomous problem-solvers that can plan, call tools, remember past steps, and adapt on the fly. This paper aims to characterize and understand the system bottlenecks introduced by agentic AI workloads from a largely overlooked CPU-centric perspective. We first systematically characterize Agentic AI on the basis of orchestrator/decision making component, inference path dynamics and repetitiveness of the agentic flow which directly influences the system-level performance. Thereafter, based on the characterization, we choose five representative agentic AI workloads- Haystack RAG, Toolformer, ChemCrow, Langchain and SWE-Agent to profile latency, throughput and energy metrics and demystify the significant impact of CPUs on these metrics relative to GPUs. We observe that - 1. Tool processing on CPUs can take up to 90.6% of the total latency; 2. Agentic throughput gets bottlenecked either by CPU factors - coherence, synchronization and over-subscription of cores or GPU factors - main memory capacity and bandwidth; \circled{3} CPU dynamic energy consumes up to 44% of the total dynamic energy at large batch sizes. Based on the profiling insights, we present two key optimizations- 1. CPU and GPU-Aware Micro-batching (CGAM) and 2. Mixed Agentic Workload Scheduling (MAWS) for homogeneous and heterogeneous agentic workloads respectively to demonstrate the potential to improve the performance, efficiency, and scalability of agentic AI. We achieve up to 2.1x and 1.41x P50 latency speedup compared to the multi-processing benchmark for homogeneous and heterogeneous agentic workloads respectively.
- Abstract(参考訳): エージェントAIフレームワークは、Web検索、Pythonインタプリタ、コンテキストデータベースなど、外部ツールに組み込まれた意思決定オーケストレータをモノリシックなLLMの上に追加し、受動的テキストオーラクルから、計画、ツールの呼び出し、過去のステップの記憶、即時適応が可能な自律的な問題解決ツールに変換する。
本稿では,エージェントAIワークロードによって引き起こされるシステムのボトルネックを,主に見過ごされたCPU中心の観点から特徴づけ,理解することを目的とする。
まず, エージェントAIを, オーケストレータ/意思決定コンポーネント, 推論パスのダイナミクス, エージェントフローの反復性に基づいて, システムレベルの性能に直接影響する。
その後、特徴に基づいて、Haystack RAG、Toolformer、ChemCrow、Langchain、SWE-Agentの5つの代表的なエージェントAIワークロードを選択します。
私たちはそれを観察する
- 1. CPU上のツール処理は、全レイテンシの90.6%までかかる可能性がある。
2. エージェントスループットはCPUファクター – コアのコヒーレンス、同期、GPUファクターのオーバーサブスクライブ – 主メモリ容量と帯域幅 – によってボトルネックとなる。
プロファイリングの洞察に基づいて2つの重要な最適化を示す。
1. CPUとGPU対応マイクロバッチ(CGAM)と
2. エージェントAIの性能,効率,スケーラビリティを向上する可能性を示すため,均質なエージェントワークロードと異質なエージェントワークロードの混合エージェントワークロードスケジューリング(MAWS)をそれぞれ実施する。
等質および異質のエージェントワークロードのマルチ処理ベンチマークと比較して,最大2.1倍,P50のレイテンシを1.41倍に高速化する。
関連論文リスト
- MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - Agent.xpu: Efficient Scheduling of Agentic LLM Workloads on Heterogeneous SoC [11.82567747365518]
本稿では,メモリ統一ヘテロジニアス SOC 上でのエージェント LLM ワークロードの効率的なサービスシステムである Agent.xpu について紹介する。
Agent.xpuは専用のオフラインプロファイリングにより、アフィニティ誘導弾性加速器マッピングのためにモデルカーネルを融合・チャンクする異種実行グラフを最初に構築した。
実行時に、そのオンラインスケジューラは、粒度の細かいカーネルレベルのプリエンプションを可能にし、リアクティブタスクの応答性を保証する。
論文 参考訳(メタデータ) (2025-06-30T16:50:48Z) - Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures [3.2645124275315163]
大規模言語モデル(LLM)ベースの推論ワークロードは、データセンターのコストとリソース利用をますます支配している。
本稿では, 疎結合(PCIe A100/H100) および密結合(GH200) システムにおける推論挙動の詳細な解析を行う。
論文 参考訳(メタデータ) (2025-04-16T04:02:39Z) - STEVE: A Step Verification Pipeline for Computer-use Agent Training [84.24814828303163]
STEVEは、コンピュータ使用エージェントトレーニングのためのステップ検証パイプラインである。
GPT-4oは、動作実行前後の画面に基づいて、軌跡の各ステップの正当性を検証するために使用される。
我々のエージェントは、軌道内での正と負の両方の作用を利用して微調整を監督する。
論文 参考訳(メタデータ) (2025-03-16T14:53:43Z) - Characterizing Mobile SoC for Accelerating Heterogeneous LLM Inference [11.755602920122803]
HeteroInferは、GPU-NPUの不均一実行をサポートするモバイルデバイスで最速のLLM推論エンジンである。
HeteroInferは最先端のGPU-NPUエンジン上で1.34倍から6.02倍のエンドツーエンドのスピードアップを提供する。
論文 参考訳(メタデータ) (2025-01-11T02:42:02Z) - Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - AIPerf: Automated machine learning as an AI-HPC benchmark [17.57686674304368]
自動機械学習(AutoML)を利用したエンドツーエンドベンチマークスイートを提案する。
アルゴリズムを並列かつ柔軟な方法で実装し、多様なシステムにおける効率性と最適化の可能性を保証する。
フレキシブルなワークロードと単一のメトリックによって、私たちのベンチマークはAI-HPCのスケールとランク付けが容易になります。
論文 参考訳(メタデータ) (2020-08-17T08:06:43Z) - Optimizing Deep Learning Recommender Systems' Training On CPU Cluster
Architectures [56.69373580921888]
クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。
HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
論文 参考訳(メタデータ) (2020-05-10T14:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。