論文の概要: Slim Scheduler: A Runtime-Aware RL and Scheduler System for Efficient CNN Inference
- arxiv url: http://arxiv.org/abs/2510.09018v1
- Date: Fri, 10 Oct 2025 05:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.190645
- Title: Slim Scheduler: A Runtime-Aware RL and Scheduler System for Efficient CNN Inference
- Title(参考訳): Slim Scheduler: 効率的なCNN推論のためのランタイム対応RLとスケジューリングシステム
- Authors: Ian Harshbarger, Calvin Chidambaram,
- Abstract要約: Slim Schedulerは、PPO(Proximal Policy Optimization)強化学習ポリシーとアルゴリズム的、欲求的なスケジューラを統合し、スクリム可能なモデルに対する分散推論を調整する。
この階層的な設計は、検索空間の複雑さを減らし、特定のハードウェアへの過度な適合を緩和し、効率とスループットのバランスをとる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most neural network scheduling research focuses on optimizing static, end-to-end models of fixed width, overlooking dynamic approaches that adapt to heterogeneous hardware and fluctuating runtime conditions. We present Slim Scheduler, a hybrid scheduling framework that integrates a Proximal Policy Optimization (PPO) reinforcement learning policy with algorithmic, greedy schedulers to coordinate distributed inference for slimmable models. Each server runs a local greedy scheduler that batches compatible requests and manages instance scaling based on VRAM and utilization constraints, while the PPO router learns global routing policies for device selection, width ratio, and batch configuration. This hierarchical design reduces search space complexity, mitigates overfitting to specific hardware, and balances efficiency and throughput. Compared to a purely randomized task distribution baseline, Slim Scheduler can achieve various accuracy and latency trade-offs such as: A 96.45% reduction in mean latency and a 97.31% reduction in energy usage dropping accuracy to the slimmest model available (70.3%). It can then accomplish an overall reduction in average latency plus energy consumption with an increase in accuracy at the cost of higher standard deviations of said latency and energy, effecting overall task throughput.
- Abstract(参考訳): ほとんどのニューラルネットワークスケジューリング研究は、固定幅の静的なエンドツーエンドモデルを最適化することに焦点を当てており、不均一なハードウェアに適応し、ランタイム条件を変動させる動的なアプローチを見越している。
Slim Schedulerは、PPO(Proximal Policy Optimization)強化学習ポリシーとアルゴリズム的、欲求的なスケジューラを統合するハイブリッドスケジューリングフレームワークである。
各サーバは、互換性のある要求をバッチし、VRAMと利用制限に基づいてインスタンススケーリングを管理するローカルのgreedyスケジューラを実行し、一方PPOルータはデバイス選択、幅比、バッチ設定のグローバルルーティングポリシーを学習する。
この階層的な設計は、検索空間の複雑さを減らし、特定のハードウェアへの過度な適合を緩和し、効率とスループットのバランスをとる。
純粋にランダム化されたタスク分散ベースラインと比較して、Slim Schedulerは平均遅延の96.45%の削減と97.31%のエネルギー使用量の削減といった様々な精度と遅延トレードオフを達成することができる(70.3%)。
これにより、平均レイテンシとエネルギー消費の全体的な削減を達成でき、そのレイテンシとエネルギーの標準偏差を高くすることで、タスク全体のスループットが向上する。
関連論文リスト
- CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - GPU Cluster Scheduling for Network-Sensitive Deep Learning [19.344426053952464]
本稿では分散DL(DDL)ワークロードのための新しいGPUクラスタスケジューラを提案する。
我々のスケジューラは、(i)ジョブ配置と統合を容易にする古典的な遅延スケジューリングアルゴリズム、(ii)ネットワークに敏感なジョブプリエンプション戦略、(iii)遅延タイマーを効果的に遅延スケジューリングするために最適化する「自動チューニング」メカニズムの3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-01-29T19:06:08Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Generating Dispatching Rules for the Interrupting Swap-Allowed Blocking
Job Shop Problem Using Graph Neural Network and Reinforcement Learning [21.021840570685264]
割り込みスワップ可能なブロッキングジョブショップ問題(ISBJSSP)は、多くの製造計画やロジスティクスアプリケーションを現実的にモデル化することができる。
連続的な削除や加算を受けるノードとエッジを特徴とする動的解離グラフの定式化を導入する。
ISBJSSP設定の割り込み、スワップ、ブロッキングをシミュレートするシミュレータが開発された。
論文 参考訳(メタデータ) (2023-02-05T23:35:21Z) - SMDP-Based Dynamic Batching for Efficient Inference on GPU-Based
Platforms [14.42787221783853]
本稿では、効率とレイテンシのバランスをとる動的グラフィックポリシーを提供することを目的とする。
提案されたソリューションは、消費電力とレイテンシのバランスをとる上で、顕著な柔軟性がある。
論文 参考訳(メタデータ) (2023-01-30T13:19:16Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。