論文の概要: Twill: Scheduling Compound AI Systems on Heterogeneous Mobile Edge Platforms
- arxiv url: http://arxiv.org/abs/2507.00491v1
- Date: Tue, 01 Jul 2025 07:06:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.451529
- Title: Twill: Scheduling Compound AI Systems on Heterogeneous Mobile Edge Platforms
- Title(参考訳): Twill: 異種モバイルエッジプラットフォーム上での複合AIシステムのスケジューリング
- Authors: Zain Taufique, Aman Vyas, Antonio Miele, Pasi Liljeberg, Anil Kanduri,
- Abstract要約: 複合AI(cAI)システムは複雑な問題を解決するために複数のAIモデルをチェーンする。
既存のモバイルエッジAI推論戦略は、マルチDNNまたはトランスフォーマーのみのワークロードを管理する。
我々は,cAIワークロードの同時推論要求を処理するランタイムフレームワークであるTwillを紹介する。
- 参考スコア(独自算出の注目度): 1.7835990287552501
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Compound AI (cAI) systems chain multiple AI models to solve complex problems. cAI systems are typically composed of deep neural networks (DNNs), transformers, and large language models (LLMs), exhibiting a high degree of computational diversity and dynamic workload variation. Deploying cAI services on mobile edge platforms poses a significant challenge in scheduling concurrent DNN-transformer inference tasks, which arrive dynamically in an unknown sequence. Existing mobile edge AI inference strategies manage multi-DNN or transformer-only workloads, relying on design-time profiling, and cannot handle concurrent inference of DNNs and transformers required by cAI systems. In this work, we address the challenge of scheduling cAI systems on heterogeneous mobile edge platforms. We present Twill, a run-time framework to handle concurrent inference requests of cAI workloads through task affinity-aware cluster mapping and migration, priority-aware task freezing/unfreezing, and DVFS, while minimizing inference latency within power budgets. We implement and deploy our Twill framework on the Nvidia Jetson Orin NX platform. We evaluate Twill against state-of-the-art edge AI inference techniques over contemporary DNNs and LLMs, reducing inference latency by 54% on average, while honoring power budgets.
- Abstract(参考訳): 複合AI(cAI)システムは複雑な問題を解決するために複数のAIモデルをチェーンする。
cAIシステムは一般的にディープニューラルネットワーク(DNN)、トランスフォーマー、および大規模言語モデル(LLM)で構成され、高い計算多様性と動的ワークロード変動を示す。
モバイルエッジプラットフォームにcAIサービスをデプロイすることは、未知のシーケンスで動的に到着する同時DNN変換器推論タスクのスケジューリングにおいて、大きな課題となる。
既存のモバイルエッジAI推論戦略は、マルチDNNまたはトランスフォーマーのみのワークロードを管理し、設計時のプロファイリングに依存し、cAIシステムに必要なDNNとトランスフォーマーの同時推論を処理できない。
本研究では、異種モバイルエッジプラットフォーム上でのcAIシステムのスケジューリングの課題に対処する。
我々は、タスク親和性を考慮したクラスタマッピングとマイグレーション、優先度対応のタスクフリーズ/アンフリーズ、DVFSを通じて、cAIワークロードの同時推論要求を処理するランタイムフレームワークであるTwillを紹介し、電力予算内での推論遅延を最小限にする。
Nvidia Jetson Orin NXプラットフォーム上でTwillフレームワークを実装し,デプロイしています。
我々は、現在のDNNやLLMよりも最先端のAI推論技術に対するTwillの評価を行い、電力予算を尊重しながら、平均で54%の遅延を減らした。
関連論文リスト
- Optimizing Multi-DNN Inference on Mobile Devices through Heterogeneous Processor Co-Execution [39.033040759452504]
Deep Neural Networks(DNN)は、さまざまな産業に展開され、モバイルデバイスのサポートの需要が高まっている。
既存のモバイル推論フレームワークは、ハードウェアの使用を制限し、最適性能とエネルギー効率を引き起こすため、モデルごとにひとつのプロセッサに依存していることが多い。
本稿では,モバイルヘテロジニアスプロセッサ上でのマルチDNN推論を最適化するためのAdvanced Multi-DNN Model Scheduling (ADMS) 戦略を提案する。
論文 参考訳(メタデータ) (2025-03-27T03:03:09Z) - Accelerating AIGC Services with Latent Action Diffusion Scheduling in Edge Networks [27.961536719427205]
現在のAIGCモデルは、主に集中型のフレームワーク内のコンテンツ品質に焦点を当てており、高いサービス遅延とネガティブなユーザエクスペリエンスをもたらす。
高速AIGCサービスのための複数のエッジサーバを編成する新しい遅延アクション拡散に基づくタスクスケジューリング手法であるLAD-TSを提案する。
また,AIGCモデルを改良したプロトタイプエッジシステムであるDEdgeAIを開発し,LAD-TS法の実装と評価を行った。
論文 参考訳(メタデータ) (2024-12-24T06:40:13Z) - Two-Timescale Model Caching and Resource Allocation for Edge-Enabled AI-Generated Content Services [55.0337199834612]
Generative AI(GenAI)は、カスタマイズされたパーソナライズされたAI生成コンテンツ(AIGC)サービスを可能にするトランスフォーメーション技術として登場した。
これらのサービスは数十億のパラメータを持つGenAIモデルの実行を必要とし、リソース制限の無線エッジに重大な障害を生じさせる。
我々は、AIGC品質とレイテンシメトリクスのトレードオフをバランスさせるために、AIGCサービスのジョイントモデルキャッシングとリソースアロケーションの定式化を導入する。
論文 参考訳(メタデータ) (2024-11-03T07:01:13Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - DNN Partitioning, Task Offloading, and Resource Allocation in Dynamic Vehicular Networks: A Lyapunov-Guided Diffusion-Based Reinforcement Learning Approach [49.56404236394601]
本稿では,Vehicular Edge Computingにおける共同DNNパーティショニング,タスクオフロード,リソース割り当ての問題を定式化する。
我々の目標は、時間とともにシステムの安定性を保証しながら、DNNベースのタスク完了時間を最小化することである。
拡散モデルの革新的利用を取り入れたマルチエージェント拡散に基づく深層強化学習(MAD2RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T06:31:03Z) - Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [68.7863363109948]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。
問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。
他のTE加速方式と比較して、Tealは需要を6~32%増やし、197~625倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-10-25T04:46:30Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Complexity-Driven CNN Compression for Resource-constrained Edge AI [1.6114012813668934]
本稿では,CNNの層レベルでの複雑さを生かして,新しい,計算効率の高いプルーニングパイプラインを提案する。
パラメータ認識(PA)、FLOP認識(FA)、メモリ認識(MA)の3つのモードを定義し、CNNの汎用圧縮を導入する。
論文 参考訳(メタデータ) (2022-08-26T16:01:23Z) - Multi-DNN Accelerators for Next-Generation AI Systems [19.990158911318247]
AI技術の第一のドライバはディープニューラルネットワーク(DNN)である
次世代のAIシステムは、コアにマルチDNNワークロードを持つことになる。
論文 参考訳(メタデータ) (2022-05-19T08:15:50Z) - Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。
また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。
我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文 参考訳(メタデータ) (2021-09-01T03:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。