論文の概要: Slim Scheduler: A Runtime-Aware RL and Scheduler System for Efficient CNN Inference
- arxiv url: http://arxiv.org/abs/2510.09018v1
- Date: Fri, 10 Oct 2025 05:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.190645
- Title: Slim Scheduler: A Runtime-Aware RL and Scheduler System for Efficient CNN Inference
- Title(参考訳): Slim Scheduler: 効率的なCNN推論のためのランタイム対応RLとスケジューリングシステム
- Authors: Ian Harshbarger, Calvin Chidambaram,
- Abstract要約: Slim Schedulerは、PPO(Proximal Policy Optimization)強化学習ポリシーとアルゴリズム的、欲求的なスケジューラを統合し、スクリム可能なモデルに対する分散推論を調整する。
この階層的な設計は、検索空間の複雑さを減らし、特定のハードウェアへの過度な適合を緩和し、効率とスループットのバランスをとる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most neural network scheduling research focuses on optimizing static, end-to-end models of fixed width, overlooking dynamic approaches that adapt to heterogeneous hardware and fluctuating runtime conditions. We present Slim Scheduler, a hybrid scheduling framework that integrates a Proximal Policy Optimization (PPO) reinforcement learning policy with algorithmic, greedy schedulers to coordinate distributed inference for slimmable models. Each server runs a local greedy scheduler that batches compatible requests and manages instance scaling based on VRAM and utilization constraints, while the PPO router learns global routing policies for device selection, width ratio, and batch configuration. This hierarchical design reduces search space complexity, mitigates overfitting to specific hardware, and balances efficiency and throughput. Compared to a purely randomized task distribution baseline, Slim Scheduler can achieve various accuracy and latency trade-offs such as: A 96.45% reduction in mean latency and a 97.31% reduction in energy usage dropping accuracy to the slimmest model available (70.3%). It can then accomplish an overall reduction in average latency plus energy consumption with an increase in accuracy at the cost of higher standard deviations of said latency and energy, effecting overall task throughput.
- Abstract(参考訳): ほとんどのニューラルネットワークスケジューリング研究は、固定幅の静的なエンドツーエンドモデルを最適化することに焦点を当てており、不均一なハードウェアに適応し、ランタイム条件を変動させる動的なアプローチを見越している。
Slim Schedulerは、PPO(Proximal Policy Optimization)強化学習ポリシーとアルゴリズム的、欲求的なスケジューラを統合するハイブリッドスケジューリングフレームワークである。
各サーバは、互換性のある要求をバッチし、VRAMと利用制限に基づいてインスタンススケーリングを管理するローカルのgreedyスケジューラを実行し、一方PPOルータはデバイス選択、幅比、バッチ設定のグローバルルーティングポリシーを学習する。
この階層的な設計は、検索空間の複雑さを減らし、特定のハードウェアへの過度な適合を緩和し、効率とスループットのバランスをとる。
純粋にランダム化されたタスク分散ベースラインと比較して、Slim Schedulerは平均遅延の96.45%の削減と97.31%のエネルギー使用量の削減といった様々な精度と遅延トレードオフを達成することができる(70.3%)。
これにより、平均レイテンシとエネルギー消費の全体的な削減を達成でき、そのレイテンシとエネルギーの標準偏差を高くすることで、タスク全体のスループットが向上する。
関連論文リスト
- Hierarchical Online-Scheduling for Energy-Efficient Split Inference with Progressive Transmission [23.81409473238433]
Deep Neural Networks(DNN)によるデバイスエッジのコラボレーティブ推論は、精度、レイテンシ、エネルギー消費の基本的なトレードオフに直面している。
本稿では,ENACHI という名前の分割推論のための新しいエネルギー精度階層型最適化フレームワークを提案する。
ImageNetデータセットの実験では、ENACHIはさまざまな期限と帯域幅で最先端のベンチマークを上回っている。
論文 参考訳(メタデータ) (2026-01-13T01:56:46Z) - Q-Learning-Based Time-Critical Data Aggregation Scheduling in IoT [3.361625512902259]
Internet of Things(IoT)ネットワークにおける時間クリティカルなデータアグリゲーションは、効率的で衝突のないスケジューリングを必要とする。
二相木構築とスケジューリングの伝統的な手法は、しばしば高い計算オーバーヘッドと最適以下の遅延に悩まされる。
本稿では,集約木の構築とスケジューリングを統一する新しいQラーニングフレームワークを提案し,拡張性のためのハッシュ状態を持つマルコフ決定プロセス(MDP)としてプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-10-29T15:46:21Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - GPU Cluster Scheduling for Network-Sensitive Deep Learning [19.344426053952464]
本稿では分散DL(DDL)ワークロードのための新しいGPUクラスタスケジューラを提案する。
我々のスケジューラは、(i)ジョブ配置と統合を容易にする古典的な遅延スケジューリングアルゴリズム、(ii)ネットワークに敏感なジョブプリエンプション戦略、(iii)遅延タイマーを効果的に遅延スケジューリングするために最適化する「自動チューニング」メカニズムの3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-01-29T19:06:08Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Generating Dispatching Rules for the Interrupting Swap-Allowed Blocking
Job Shop Problem Using Graph Neural Network and Reinforcement Learning [21.021840570685264]
割り込みスワップ可能なブロッキングジョブショップ問題(ISBJSSP)は、多くの製造計画やロジスティクスアプリケーションを現実的にモデル化することができる。
連続的な削除や加算を受けるノードとエッジを特徴とする動的解離グラフの定式化を導入する。
ISBJSSP設定の割り込み、スワップ、ブロッキングをシミュレートするシミュレータが開発された。
論文 参考訳(メタデータ) (2023-02-05T23:35:21Z) - SMDP-Based Dynamic Batching for Efficient Inference on GPU-Based
Platforms [14.42787221783853]
本稿では、効率とレイテンシのバランスをとる動的グラフィックポリシーを提供することを目的とする。
提案されたソリューションは、消費電力とレイテンシのバランスをとる上で、顕著な柔軟性がある。
論文 参考訳(メタデータ) (2023-01-30T13:19:16Z) - Federated Learning for Energy-limited Wireless Networks: A Partial Model
Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックである
まず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。
提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文 参考訳(メタデータ) (2022-04-20T19:09:52Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。