論文の概要: Adaptive Orchestration for Large-Scale Inference on Heterogeneous Accelerator Systems Balancing Cost, Performance, and Resilience
- arxiv url: http://arxiv.org/abs/2503.20074v1
- Date: Tue, 25 Mar 2025 21:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:18:02.011601
- Title: Adaptive Orchestration for Large-Scale Inference on Heterogeneous Accelerator Systems Balancing Cost, Performance, and Resilience
- Title(参考訳): 不均一加速器システムにおける大規模推論のための適応的オーケストレーション
- Authors: Yahav Biran, Imry Kissos,
- Abstract要約: 本稿では,異種アクセラレータ間で要求を適応的に割り当てるハードウェア非依存制御ループを提案する。
このフレームワークは、レイテンシの目標を一貫して満たし、キャパシティの不足時にトラフィックを自動的にリダイレクトし、低コストのアクセラレータを収益化する。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License:
- Abstract: The surge in generative AI workloads has created a need for scalable inference systems that can flexibly harness both GPUs and specialized accelerators while containing operational costs. This paper proposes a hardware-agnostic control loop that adaptively allocates requests across heterogeneous accelerators based on real-time cost and capacity signals. The approach sustains low latency and high throughput by dynamically shifting between cost-optimized and capacity-optimized modes, ensuring the most efficient use of expensive compute resources under fluctuating availability. Evaluated using the Stable Diffusion model, the framework consistently meets latency targets, automatically redirects traffic during capacity shortfalls, and capitalizes on lower-cost accelerators when possible. These results highlight how a feedback-driven deployment strategy, spanning the entire software and hardware stack, can help organizations efficiently scale generative AI workloads while maintaining resilience in the face of limited accelerator capacity.
- Abstract(参考訳): 生成するAIワークロードの急増は、運用コストを伴いながらGPUと特別なアクセラレータの両方を柔軟に活用できるスケーラブルな推論システムの必要性を生み出した。
本稿では、リアルタイムコストとキャパシティ信号に基づいて、異種アクセラレータ間で要求を適応的に割り当てるハードウェア非依存制御ループを提案する。
このアプローチは、コスト最適化モードとキャパシティ最適化モードを動的に切り替えることによって、低レイテンシと高スループットを維持する。
安定拡散モデルを用いて評価されたこのフレームワークは、レイテンシの目標を常に満たし、キャパシティ不足時にトラフィックを自動的にリダイレクトし、可能な限り低コストのアクセラレータを活用できる。
これらの結果は、ソフトウェアとハードウェアスタック全体にまたがるフィードバック駆動デプロイメント戦略が、組織が生成可能なAIワークロードを効率的にスケールアップし、アクセラレーション能力の制限に直面したレジリエンスを維持する上で、どのように役立つかを強調している。
関連論文リスト
- Intelligent Sensing-to-Action for Robust Autonomy at the Edge: Opportunities and Challenges [19.390215975410406]
ロボット、スマートシティ、自動運転車における自律エッジコンピューティングは、センサー、処理、アクチュエーターのシームレスな統合に依存している。
中心となるのは、センサー入力と計算モデルとを反復的に整列させて適応制御戦略を駆動するセンサー・ツー・アクション・ループである。
本稿では、能動的、文脈対応型センシング・ツー・アクションとアクション・トゥ・センシングの適応によって効率が向上する方法について論じる。
論文 参考訳(メタデータ) (2025-02-04T20:13:58Z) - Neural Horizon Model Predictive Control -- Increasing Computational Efficiency with Neural Networks [0.0]
予測制御をモデル化するための機械学習支援手法を提案する。
安全保証を維持しつつ,問題地平線の一部を近似することを提案する。
提案手法は,迅速な制御応答を必要とするアプリケーションを含む,幅広いアプリケーションに適用可能である。
論文 参考訳(メタデータ) (2024-08-19T08:13:37Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Exploration of Activation Fault Reliability in Quantized Systolic
Array-Based DNN Accelerators [0.8796261172196743]
本稿では,量子化がモデル精度,アクティベーション障害の信頼性,ハードウェア効率に与える影響を総合的に評価するための包括的方法論を提案する。
さまざまな量子化対応技術、フォールトインジェクション、ハードウェア実装を適用可能な、完全に自動化されたフレームワークが導入された。
確立されたベンチマーク実験は、信頼性、ハードウェア性能、ネットワーク精度に対する分析フローと量子化の深い影響を実証している。
論文 参考訳(メタデータ) (2024-01-17T12:55:17Z) - Real-time Control of Electric Autonomous Mobility-on-Demand Systems via Graph Reinforcement Learning [14.073588678179865]
エレクトロニック・モビリティ・オン・デマンド(E-AMoD)は、いくつかのリアルタイムな意思決定を行う必要がある。
強化学習のレンズによるE-AMoD制御問題を提案する。
本稿では,拡張性を大幅に向上し,性能の最適化に優れるグラフネットワークベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-09T22:57:21Z) - Multi-Objective Optimization for UAV Swarm-Assisted IoT with Virtual
Antenna Arrays [55.736718475856726]
無人航空機(UAV)ネットワークはIoT(Internet-of-Things)を支援するための有望な技術である
既存のUAV支援データ収集および普及スキームでは、UAVはIoTとアクセスポイントの間を頻繁に飛行する必要がある。
協調ビームフォーミングをIoTとUAVに同時に導入し、エネルギーと時間効率のデータ収集と普及を実現した。
論文 参考訳(メタデータ) (2023-08-03T02:49:50Z) - Elastic Entangled Pair and Qubit Resource Management in Quantum Cloud
Computing [73.7522199491117]
量子クラウドコンピューティング(QCC)は、量子コンピューティングリソースを効率的に提供するための有望なアプローチを提供する。
ユーザ需要の変動と量子回路の要求は、効率的なリソース供給のために困難である。
本稿では、量子コンピューティングとネットワークリソースのプロビジョニングのためのリソース割り当てモデルを提案する。
論文 参考訳(メタデータ) (2023-07-25T00:38:46Z) - Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference
Serving Systems [0.0]
InfAdapterは、レイテンシSLOを満たすために、リソース割り当てでMLモデルの一連の変種を積極的に選択する。
SLO違反を減らし、業界で人気のオートスケーラと比較して、それぞれ65%と33%に値下げする。
論文 参考訳(メタデータ) (2023-04-21T11:19:49Z) - Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A
Multi-Agent Reinforcement Learning Approach [48.18355658448509]
生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。
地理的に分散したクラウドデータセンタ間でのトレーニングジョブのスケジューリングは、安価で低炭素エネルギーのコンピューティング能力の使用を最適化する機会を浮き彫りにする。
本研究では,実生活におけるワークロードパターン,エネルギー価格,炭素強度を組み込んだクラウドシステムと対話することで,マルチエージェント強化学習とアクタクリティカルな手法に基づく最適協調スケジューリング戦略の学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-17T02:12:30Z) - Guaranteed Dynamic Scheduling of Ultra-Reliable Low-Latency Traffic via
Conformal Prediction [72.59079526765487]
アップリンクにおける超信頼性・低遅延トラフィック(URLLC)の動的スケジューリングは、既存のサービスの効率を大幅に向上させることができる。
主な課題は、URLLCパケット生成のプロセスにおける不確実性である。
本稿では,URLLC トラフィック予測器の品質に関わらず,信頼性と遅延を保証した新しい URLLC パケットスケジューラを提案する。
論文 参考訳(メタデータ) (2023-02-15T14:09:55Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。