論文の概要: Exploring the Dynamic Scheduling Space of Real-Time Generative AI Applications on Emerging Heterogeneous Systems
- arxiv url: http://arxiv.org/abs/2507.14715v1
- Date: Sat, 19 Jul 2025 18:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.016941
- Title: Exploring the Dynamic Scheduling Space of Real-Time Generative AI Applications on Emerging Heterogeneous Systems
- Title(参考訳): 創発的不均一システムに基づく実時間生成AIアプリケーションの動的スケジューリング空間の探索
- Authors: Rachid Karami, Rajeev Patwari, Hyoukjun Kwon, Ashish Sirasao,
- Abstract要約: リアルタイム生成AI(RTGen)ワークロードは、生成モデルの計算強度と動的実行パターンと、リアルタイム推論の制約とを結合する。
現代のエッジプラットフォームでは、不均一なSystem-on-chip(SoC)アーキテクチャが採用されている。
スケジューリング決定がワークロードのパフォーマンスに大きく影響することを示します。
- 参考スコア(独自算出の注目度): 0.9041154551329587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of generative AI models, particularly large language models (LLMs), into real-time multi-model AI applications such as video conferencing and gaming is giving rise to a new class of workloads: real-time generative AI (RTGen). These workloads combine the compute intensity and dynamic execution patterns of generative models with the stringent latency and concurrency constraints of real-time inference. To meet the diverse demands of RTGen workloads, modern edge platforms increasingly adopt heterogeneous system-on-chip (SoC) architectures that integrate CPUs, GPUs, and NPUs. Despite the potential of heterogeneous SoC, the scheduling space complexity and performance implications of RTGen workloads on such platforms remain underexplored. In this work, we perform a comprehensive characterization of RTGen workloads on AMD's latest heterogeneous SoC, Ryzen AI. We construct realistic multi-model scenarios inspired by industry use cases and profile model performance across all available backends. Using this data, we evaluate five scheduling policies and their impact on both real-time metrics (e.g., deadline violation rate) and LLM performance (e.g., time-to-first-token and tokens-per-second). Our results show that scheduling decisions significantly affect workload performance (e.g., leading to a 41.7% difference in deadline violation rates on average), and highlight the need for scheduling strategies that are aware of workload dynamics and hardware heterogeneity. Our findings underscore the importance of workload-aware, dynamic heterogeneous scheduling in enabling high-performance, on-device RTGen applications.
- Abstract(参考訳): 生成型AIモデル、特に大規模言語モデル(LLM)をビデオ会議やゲームといったリアルタイムマルチモデルAIアプリケーションに統合することで、リアルタイム生成型AI(RTGen)という新たなワークロードが生まれている。
これらのワークロードは、生成モデルの計算強度と動的実行パターンと、リアルタイム推論の厳密なレイテンシと並行性の制約を組み合わせる。
RTGenワークロードのさまざまな要求を満たすため、現代的なエッジプラットフォームでは、CPU、GPU、NPUを統合する異種システムオンチップ(SoC)アーキテクチャの採用が増えている。
ヘテロジニアスSoCの可能性にもかかわらず、RTGenワークロードのスケジューリング空間の複雑さとパフォーマンスへの影響は未解明のままである。
本研究では、AMDの最新の異種SoCであるRyzen AI上でRTGenワークロードの包括的な評価を行う。
業界ユースケースやプロファイルモデルのパフォーマンスにインスパイアされた現実的なマルチモデルシナリオを構築します。
このデータを用いて、5つのスケジューリングポリシーと、リアルタイムメトリクス(例えば、期限違反率)とLCMパフォーマンス(例えば、時間対ファーストトークンとトークン/秒)への影響を評価する。
本結果から,スケジューリング決定がワークロード性能に大きく影響すること(例えば,平均納期違反率に41.7%の差が生じる),ワークロードのダイナミクスやハードウェアの不均一性を意識したスケジューリング戦略の必要性を強調した。
本研究は,作業負荷に配慮した動的ヘテロジニアススケジューリングが,高性能でオンデバイスなRTGenアプリケーションを実現する上で重要であることを示すものである。
関連論文リスト
- Efficient and Scalable Agentic AI with Heterogeneous Systems [1.8921715645847679]
AIエージェントは、幅広いアプリケーションにおいて支配的なワークロードとして現れており、企業や消費者にAIの約束されたメリットを提供するための手段として期待されている。
AIエージェントの使用をスケールするには、効率的でスケーラブルなデプロイメントとエージェントサービスインフラストラクチャが必要です。
異種計算インフラストラクチャ上でAIエージェントのワークロードを動的にオーケストレーションするシステム設計を提案する。
論文 参考訳(メタデータ) (2025-07-25T19:02:42Z) - Context-Aware CodeLLM Eviction for AI-assisted Coding [6.199193051670653]
Code Large Language Models (CodeLLMs) を利用したAI支援コーディングツールは、現代のソフトウェア開発にますます統合されている。
プライバシやレイテンシ、モデルのカスタマイズに関する懸念に対処するため、多くの企業は、これらのモデルをセルフホストすることにしました。
本稿では,リソース制約下での自己ホスト型CodeLLMの最適化に特化して設計された,コンテキスト対応モデル消去戦略であるCACEを提案する。
論文 参考訳(メタデータ) (2025-06-23T16:03:32Z) - Understanding and Optimizing Multi-Stage AI Inference Pipelines [11.254219071373319]
HERMESは不均一な多段LPM推論実行シミュレータである。
HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。
我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
論文 参考訳(メタデータ) (2025-04-14T00:29:49Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Profiling AI Models: Towards Efficient Computation Offloading in Heterogeneous Edge AI Systems [0.2357055571094446]
本稿では、AIモデルのプロファイリング、モデルタイプと基盤となるハードウェアに関するデータ収集、リソース利用とタスク完了時間の予測に焦点を当てた研究ロードマップを提案する。
3,000以上の実行での実験は、リソース割り当ての最適化とEdge AIのパフォーマンス向上を約束している。
論文 参考訳(メタデータ) (2024-10-30T16:07:14Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Generative Modeling of Regular and Irregular Time Series Data via Koopman VAEs [50.25683648762602]
モデルの新しい設計に基づく新しい生成フレームワークであるKoopman VAEを紹介する。
クープマン理論に触発され、線形写像を用いて潜在条件事前力学を表現する。
KoVAEは、いくつかの挑戦的な合成および実世界の時系列生成ベンチマークにおいて、最先端のGANおよびVAEメソッドより優れている。
論文 参考訳(メタデータ) (2023-10-04T07:14:43Z) - DREAM: A Dynamic Scheduler for Dynamic Real-time Multi-model ML
Workloads [8.266680870089997]
RTMMワークロードの様々な動的処理を効果的に行う新しいスケジューラDREAMを提案する。
DREAMはRTMMワークロードのユニークな要件を定量化し、定量化されたスコアを使用してスケジューリング決定を実行する。
RTMMワークロードの5つのシナリオの評価において、DREAMは、最先端のベースラインと比較して、平均幾何(80.8%、97.6%)においてUXCost全体の32.2%と50.0%削減する。
論文 参考訳(メタデータ) (2022-12-07T02:48:14Z) - A Generative Approach for Production-Aware Industrial Network Traffic
Modeling [70.46446906513677]
ドイツにあるTrumpf工場に配備されたレーザー切断機から発生するネットワークトラフィックデータについて検討した。
我々は、トラフィック統計を分析し、マシンの内部状態間の依存関係をキャプチャし、ネットワークトラフィックを生産状態依存プロセスとしてモデル化する。
可変オートエンコーダ(VAE)、条件付き可変オートエンコーダ(CVAE)、生成逆ネットワーク(GAN)など、様々な生成モデルの性能の比較を行った。
論文 参考訳(メタデータ) (2022-11-11T09:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。