論文の概要: Efficient and Scalable Agentic AI with Heterogeneous Systems
- arxiv url: http://arxiv.org/abs/2507.19635v1
- Date: Fri, 25 Jul 2025 19:02:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.871402
- Title: Efficient and Scalable Agentic AI with Heterogeneous Systems
- Title(参考訳): 不均一システムを用いた効率的でスケーラブルなエージェントAI
- Authors: Zain Asgar, Michelle Nguyen, Sachin Katti,
- Abstract要約: AIエージェントは、幅広いアプリケーションにおいて支配的なワークロードとして現れており、企業や消費者にAIの約束されたメリットを提供するための手段として期待されている。
AIエージェントの使用をスケールするには、効率的でスケーラブルなデプロイメントとエージェントサービスインフラストラクチャが必要です。
異種計算インフラストラクチャ上でAIエージェントのワークロードを動的にオーケストレーションするシステム設計を提案する。
- 参考スコア(独自算出の注目度): 1.8921715645847679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are emerging as a dominant workload in a wide range of applications, promising to be the vehicle that delivers the promised benefits of AI to enterprises and consumers. Unlike conventional software or static inference, agentic workloads are dynamic and structurally complex. Often these agents are directed graphs of compute and IO operations that span multi-modal data input and conversion), data processing and context gathering (e.g vector DB lookups), multiple LLM inferences, tool calls, etc. To scale AI agent usage, we need efficient and scalable deployment and agent-serving infrastructure. To tackle this challenge, in this paper, we present a system design for dynamic orchestration of AI agent workloads on heterogeneous compute infrastructure spanning CPUs and accelerators, both from different vendors and across different performance tiers within a single vendor. The system delivers several building blocks: a framework for planning and optimizing agentic AI execution graphs using cost models that account for compute, memory, and bandwidth constraints of different HW; a MLIR based representation and compilation system that can decompose AI agent execution graphs into granular operators and generate code for different HW options; and a dynamic orchestration system that can place the granular components across a heterogeneous compute infrastructure and stitch them together while meeting an end-to-end SLA. Our design performs a systems level TCO optimization and preliminary results show that leveraging a heterogeneous infrastructure can deliver significant TCO benefits. A preliminary surprising finding is that for some workloads a heterogeneous combination of older generation GPUs with newer accelerators can deliver similar TCO as the latest generation homogenous GPU infrastructure design, potentially extending the life of deployed infrastructure.
- Abstract(参考訳): AIエージェントは、幅広いアプリケーションにおいて支配的なワークロードとして現れており、企業や消費者にAIの約束されたメリットを提供するための手段として期待されている。
従来のソフトウェアや静的推論とは異なり、エージェント的ワークロードは動的で構造的に複雑である。
これらのエージェントは、マルチモーダルなデータ入力と変換、データ処理とコンテキスト収集(例えば、ベクトルDBルックアップ)、複数のLLM推論、ツールコールなどにまたがる計算とIO操作のグラフであることが多い。
AIエージェントの使用をスケールするには、効率的でスケーラブルなデプロイメントとエージェントサービスインフラストラクチャが必要です。
この課題に対処するために、我々は、CPUとアクセラレータをまたがる異種コンピューティングインフラストラクチャ上で、AIエージェントのワークロードを動的にオーケストレーションするためのシステム設計を提案する。
このシステムは、さまざまなHWの計算、メモリ、帯域幅の制約を考慮に入れたコストモデルを使用したエージェントAI実行グラフの計画と最適化のためのフレームワーク、AIエージェント実行グラフを粒度演算子に分解し、さまざまなHWオプションのためのコードを生成するMLIRベースの表現とコンパイルシステム、異種コンピューティングインフラストラクチャ全体にわたって粒度のコンポーネントを配置し、エンドツーエンドSLAを満たしながらそれらを縫合する動的オーケストレーションシステムなど、いくつかのビルディングブロックを提供する。
我々の設計はシステムレベルのTCO最適化を行い、その予備的な結果から、異種インフラを利用することで、大きなTCOのメリットが得られます。
予備的な驚きの発見は、一部のワークロードでは、古い世代のGPUと新しいアクセラレータの異質な組み合わせが、最新の均質なGPUインフラストラクチャ設計と同じようなTCOを提供することができ、デプロイされたインフラストラクチャの寿命を延ばす可能性があることだ。
関連論文リスト
- Assemble Your Crew: Automatic Multi-agent Communication Topology Design via Autoregressive Graph Generation [72.44384066166147]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)は、多様な領域にわたる複雑な問題を扱うための強力なソリューションとして登場した。
既存のアプローチは、事前に定義されたエージェントセットとハードコードされた相互作用構造を持つテンプレートグラフ修正パラダイムに依存しているため、基本的に制限されている。
協調グラフをスクラッチから構築することで、このパラダイムを運用する新しい自己回帰モデルであるARG-Designerを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:17:41Z) - Exploring the Dynamic Scheduling Space of Real-Time Generative AI Applications on Emerging Heterogeneous Systems [0.9041154551329587]
リアルタイム生成AI(RTGen)ワークロードは、生成モデルの計算強度と動的実行パターンと、リアルタイム推論の制約とを結合する。
現代のエッジプラットフォームでは、不均一なSystem-on-chip(SoC)アーキテクチャが採用されている。
スケジューリング決定がワークロードのパフォーマンスに大きく影響することを示します。
論文 参考訳(メタデータ) (2025-07-19T18:24:11Z) - Beyond Connectivity: An Open Architecture for AI-RAN Convergence in 6G [20.07205081315289]
本稿では、共有インフラストラクチャ上での通信およびAIワークロードのオーケストレーションと管理を統一する、新しい収束型O-RANおよびAI-RANアーキテクチャを提案する。
i) O-RAN Service Management and Orchestration(SMO)を拡張してRANおよびAIワークロード間の統合リソースとアロケーションを可能にするAI-RAN Orchestrator、(ii)分散エッジAIプラットフォームにリアルタイム処理機能を提供するAI-RANサイト。
論文 参考訳(メタデータ) (2025-07-09T14:49:11Z) - Graphs Meet AI Agents: Taxonomy, Progress, and Future Opportunities [117.49715661395294]
データ構造化は、複雑で非組織的なデータをよく構造化された形式に変換することで、有望な役割を果たす。
この調査では、グラフがAIエージェントにどのように権限を与えるかを、初めて体系的にレビューする。
論文 参考訳(メタデータ) (2025-06-22T12:59:12Z) - KAITIAN: A Unified Communication Framework for Enabling Efficient Collaboration Across Heterogeneous Accelerators in Embodied AI Systems [5.241889216655924]
KAITIANは、AIワークロードのための新しい分散通信フレームワークである。
ベンダー最適化されたグループ内効率のための通信ライブラリとグループ間相互運用性のための汎用通信プロトコルを統合する。
ベースラインの均質システムと比較してトレーニング時間を最大42%短縮することができる。
論文 参考訳(メタデータ) (2025-05-15T11:29:43Z) - Understanding and Optimizing Multi-Stage AI Inference Pipelines [11.254219071373319]
HERMESは不均一な多段LPM推論実行シミュレータである。
HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。
我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
論文 参考訳(メタデータ) (2025-04-14T00:29:49Z) - A representational framework for learning and encoding structurally enriched trajectories in complex agent environments [1.904851064759821]
人工知能エージェントが最適な決定を行い、それらを異なるドメインやタスクに一般化する能力は、複雑なシナリオで妥協される。
この問題に対処する方法の1つは、世界の効率的な表現を学習することと、エージェントのアクションがそれらにどのように影響するかに焦点を当てている。
本稿では,エージェントのオントロジーを強化し,タスク実行のより微妙なビューを提供するために,トラジェクトリの伝統化を拡張することを提案する。
論文 参考訳(メタデータ) (2025-03-17T14:04:27Z) - AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。