論文の概要: CPU frequency scheduling of real-time applications on embedded devices
with temporal encoding-based deep reinforcement learning
- arxiv url: http://arxiv.org/abs/2309.03779v1
- Date: Thu, 7 Sep 2023 15:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 12:28:24.771009
- Title: CPU frequency scheduling of real-time applications on embedded devices
with temporal encoding-based deep reinforcement learning
- Title(参考訳): 時間エンコーディングに基づく深層強化学習による組込みデバイス上でのリアルタイムアプリケーションのcpu周波数スケジューリング
- Authors: Ti Zhou and Man Lin
- Abstract要約: 小型デバイスは、ソフトデッドラインで周期的な専用のタスクを実行するために、IoTやスマートシティアプリケーションで頻繁に使用される。
本研究は,小型デバイス上での周期的タスクに対する効率的な電力管理手法の開発に焦点をあてる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small devices are frequently used in IoT and smart-city applications to
perform periodic dedicated tasks with soft deadlines. This work focuses on
developing methods to derive efficient power-management methods for periodic
tasks on small devices. We first study the limitations of the existing Linux
built-in methods used in small devices. We illustrate three typical
workload/system patterns that are challenging to manage with Linux's built-in
solutions. We develop a reinforcement-learning-based technique with temporal
encoding to derive an effective DVFS governor even with the presence of the
three system patterns. The derived governor uses only one performance counter,
the same as the built-in Linux mechanism, and does not require an explicit task
model for the workload. We implemented a prototype system on the Nvidia Jetson
Nano Board and experimented with it with six applications, including two
self-designed and four benchmark applications. Under different deadline
constraints, our approach can quickly derive a DVFS governor that can adapt to
performance requirements and outperform the built-in Linux approach in energy
saving. On Mibench workloads, with performance slack ranging from 0.04 s to 0.4
s, the proposed method can save 3% - 11% more energy compared to Ondemand.
AudioReg and FaceReg applications tested have 5%- 14% energy-saving
improvement. We have open-sourced the implementation of our in-kernel quantized
neural network engine. The codebase can be found at:
https://github.com/coladog/tinyagent.
- Abstract(参考訳): 小型デバイスは、ソフトデッドラインで周期的な専用のタスクを実行するために、IoTやスマートシティアプリケーションで頻繁に使用される。
本研究は,小型デバイス上での周期的タスクに対する効率的な電力管理手法の開発に焦点をあてる。
まず,小型デバイスで使用する既存のlinux組み込みメソッドの制限について検討した。
Linuxの組み込みソリューションでは管理が難しい3つの典型的なワークロード/システムパターンを説明します。
我々は,3つのシステムパターンが存在する場合でも,効果的なDVFS知事を導き出すために,時間エンコーディングを用いた強化学習ベースの手法を開発した。
派生したガウンジは、組み込みLinuxメカニズムと同じ1つのパフォーマンスカウンタしか使用せず、ワークロードに対して明示的なタスクモデルを必要としない。
Nvidia Jetson Nano Boardにプロトタイプシステムを実装し,2つの自設計と4つのベンチマークアプリケーションを含む6つのアプリケーションで実験を行った。
異なる期限制約の下では、我々のアプローチは、パフォーマンス要件に適応し、省エネの組込みLinuxアプローチより優れたDVFSの知事を迅速に導き出すことができる。
Mibenchのワークロードでは、パフォーマンスが0.04秒から0.4秒の範囲で、Ondemandに比べて3%から11%のエネルギーを節約できる。
audioregとfaceregのアプリケーションは5%から14%の省エネ改善がある。
我々はカーネル内量子化ニューラルネットワークエンジンの実装をオープンソースにした。
コードベースは、https://github.com/coladog/tinyagent.com/で確認できる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Energy-Efficient Computation with DVFS using Deep Reinforcement Learning for Multi-Task Systems in Edge Computing [6.447135136911933]
本研究は、省エネのための強化学習に基づくDVFSを用いたマルチタスク、マルチデッドラインシナリオを備えた一般化システムについて研究する。
この方法は、Linuxカーネル内の時系列情報を強化学習に容易に利用できる情報に符号化する。
テスト結果から,Linuxの組込み知事と比較して3%~10%の省電力化が可能であった。
論文 参考訳(メタデータ) (2024-09-28T18:44:39Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - Dynamic DNNs and Runtime Management for Efficient Inference on
Mobile/Embedded Devices [2.8851756275902476]
ディープニューラルネットワーク(DNN)推論は、モバイルおよび組み込みプラットフォームでますます実行されています。
システムレベルの性能とエネルギー効率を最大化する新しいDynamic Super-Networksを共同で設計した。
SOTAと比較すると、Jetson Xavier NXのGPU上でのImageNetを用いた実験結果は、類似のImageNet Top-1精度で2.4倍、類似のレイテンシで5.1%高速であることを示している。
論文 参考訳(メタデータ) (2024-01-17T04:40:30Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - A Makespan and Energy-Aware Scheduling Algorithm for Workflows under
Reliability Constraint on a Multiprocessor Platform [11.427019313284]
本稿では,所定の信頼性制約に対する等間隔とエネルギーを最小化するワークフロースケジューリングアルゴリズムを提案する。
私たちのアルゴリズムであるMERTとEAFTSは最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-12-19T07:03:04Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - YONO: Modeling Multiple Heterogeneous Neural Networks on
Microcontrollers [10.420617367363047]
YONOは製品量子化(PQ)ベースのアプローチで、複数の異種モデルを圧縮し、インメモリモデルの実行と切り替えを可能にする。
YONOは、複数の異種モデルを無視できるか、または12.37$times$まで精度を損なわないで圧縮できるので、優れた性能を示している。
論文 参考訳(メタデータ) (2022-03-08T01:24:36Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - DeepEdgeBench: Benchmarking Deep Neural Networks on Edge Devices [0.6021787236982659]
Inference time and power consumption of the four Systems on a Chip (SoCs): Asus Tinker Edge R, Raspberry Pi 4, Google Coral Dev Board, Nvidia Jetson Nano, and one microcontroller, Arduino Nano 33 BLE。
推論時間の少なさ、すなわちMobileNetV2の29.3%以下では、Jetson Nanoは他のデバイスよりも高速に動作している。
論文 参考訳(メタデータ) (2021-08-21T08:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。