論文の概要: Scalable Inference Architectures for Compound AI Systems: A Production Deployment Study
- arxiv url: http://arxiv.org/abs/2604.25724v1
- Date: Tue, 28 Apr 2026 14:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.912372
- Title: Scalable Inference Architectures for Compound AI Systems: A Production Deployment Study
- Title(参考訳): 複合AIシステムのためのスケーラブルな推論アーキテクチャ:生産展開研究
- Authors: Srikanta Prasad S, Utkarsh Arora,
- Abstract要約: 本稿では、Salesforceが開発し、複合AIユースケースをサポートするモジュール型プラットフォームに依存しない推論アーキテクチャの運用展開に関する研究について述べる。
生産結果は、テールレイテンシ(P95)が50%以上削減され、スループットが3.9倍に向上し、以前の静的デプロイメントに比べて30~40%のコスト削減が達成された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern enterprise AI applications increasingly rely on compound AI systems - architectures that compose multiple models, retrievers, and tools to accomplish complex tasks. Deploying such systems in production demands inference infrastructure that can efficiently serve concurrent, heterogeneous model invocations while maintaining cost-effectiveness and low latency. This paper presents a production deployment study of a modular, platform-agnostic inference architecture developed at Salesforce to support compound AI use cases including Agentforce (autonomous AI agents) and ApexGuru (AI-powered code analysis). The system integrates serverless execution, dynamic autoscaling, and MLOps pipelines to deliver consistent low-latency inference across multi-component agent workflows. We report production results demonstrating over 50% reduction in tail latency (P95), up to 3.9x throughput improvement, and 30 to 40% cost savings compared to prior static deployments. We further present a novel analysis of compound-system-specific challenges including multi-model fan-out overhead, cascading cold-start propagation, and heterogeneous scaling dynamics that emerge uniquely when serving agentic workloads. Through detailed case studies and operational lessons, we illustrate how the architecture enables compound AI systems to scale model invocations in parallel, handle bursty multi-agent workloads, and support rapid model iteration - capabilities essential for operationalizing agentic AI at enterprise scale.
- Abstract(参考訳): 現代のエンタープライズAIアプリケーションは、複雑なタスクを達成するために、複数のモデル、レトリバー、ツールを構成するアーキテクチャーである複合AIシステムにますます依存している。
このようなシステムを本番環境にデプロイするには,コスト効率と低レイテンシを維持しながら,並列かつ異種モデルの実行を効率的に行うことのできる,推論インフラストラクチャが必要になります。
本稿では、Agentforce(自動AIエージェント)やApexGuru(AIコード分析)などの複合AIユースケースをサポートするためにSalesforceが開発したモジュラーでプラットフォームに依存しない推論アーキテクチャの運用展開について述べる。
このシステムは、サーバレス実行、動的オートスケーリング、MLOpsパイプラインを統合し、マルチコンポーネントエージェントワークフロー間で一貫した低レイテンシ推論を提供する。
運用結果から,テールレイテンシ(P95)が50%以上削減され,スループットが3.9倍,コストが30~40%削減されたことを報告した。
さらに,マルチモデルファンアウトオーバヘッド,カスケード型コールドスタート伝搬,エージェントワークロードの提供時に一意に現れるヘテロジニアススケーリングダイナミクスなど,複合システム固有の課題を新たに分析する。
詳細なケーススタディと運用上の教訓を通じて、複雑なAIシステムが並列にモデル呼び出しをスケールし、バースト的なマルチエージェントワークロードを処理し、エンタープライズスケールでエージェントAIを運用するのに不可欠な、迅速なモデルイテレーションをサポートする方法について説明する。
関連論文リスト
- BONSAI: A Mixed-Initiative Workspace for Human-AI Co-Development of Visual Analytics Applications [13.657176068149417]
BONSAIは、Visual Analyticsアプリケーションのマルチエージェント共同開発のための混合開始型ワークスペースである。
本稿では、複雑なVA開発に必要な構造的厳密さとAIの生成速度のバランスをとるために、概念的ワークフロー、スケーラブルなアーキテクチャ、統合システムに貢献する。
論文 参考訳(メタデータ) (2026-04-21T08:57:49Z) - AIPC: Agent-Based Automation for AI Model Deployment with Qualcomm AI Runtime [0.0]
本稿では,AIモデル展開の制約付き自動化のためのAIエージェント駆動型アプローチであるAIPCを紹介する。
標準化された検証可能なステージへのデプロイを分解し、デプロイドメインの知識をエージェントの実行に注入する。
PyTorchから実行可能なQNN/SNPE推論へのデプロイを7~20分以内に完了し、構造的に定期的な視覚モデルを実現する。
論文 参考訳(メタデータ) (2026-04-16T06:15:56Z) - Multi-Agent Orchestration for High-Throughput Materials Screening on a Leadership-Class System [1.4669344809969722]
大規模言語モデル(LLM)は、自律的な意思決定において重要な役割を果たす。
我々は,高スループットスクリーニングキャンペーンを編成するスケーラブルで階層的なマルチエージェントフレームワークを提案する。
提案するエージェントフレームワークは,Auroraスーパーコンピュータ上での効率的かつスケーラブルな実行を可能にする。
論文 参考訳(メタデータ) (2026-04-09T01:01:11Z) - An Empirical Study of Multi-Agent Collaboration for Automated Research [41.906658558789545]
本稿では,機械学習の自動最適化のための異なるマルチエージェント構造の比較効果について検討する。
サブエージェントアーキテクチャとエージェントチームアーキテクチャという,2つのマルチエージェントパラダイムに対して,単一エージェントベースラインをベンチマークする。
この結果から,運用安定性と理論的検討の根本的なトレードオフが明らかになった。
論文 参考訳(メタデータ) (2026-03-31T11:57:00Z) - ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era [74.42509044145417]
MegaFlowは、エージェント環境ワークロードの効率的なスケジューリング、リソース割り当て、きめ細かいタスク管理を可能にする、大規模な分散オーケストレーションシステムである。
エージェントのトレーニングデプロイメントでは、MegaFlowは、高いシステムの安定性を維持しながら、数万の並行エージェントタスクを編成し、効率的なリソース利用を実現しています。
論文 参考訳(メタデータ) (2026-01-12T13:25:33Z) - Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.73992315826035]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。
Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文 参考訳(メタデータ) (2025-12-31T04:25:11Z) - Efficient and Scalable Agentic AI with Heterogeneous Systems [1.8921715645847679]
AIエージェントは、幅広いアプリケーションにおいて支配的なワークロードとして現れており、企業や消費者にAIの約束されたメリットを提供するための手段として期待されている。
AIエージェントの使用をスケールするには、効率的でスケーラブルなデプロイメントとエージェントサービスインフラストラクチャが必要です。
異種計算インフラストラクチャ上でAIエージェントのワークロードを動的にオーケストレーションするシステム設計を提案する。
論文 参考訳(メタデータ) (2025-07-25T19:02:42Z) - ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。
ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。
ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。