論文の概要: Lotus: learning-based online thermal and latency variation management for two-stage detectors on edge devices
- arxiv url: http://arxiv.org/abs/2410.10847v1
- Date: Tue, 01 Oct 2024 18:00:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 10:10:25.468105
- Title: Lotus: learning-based online thermal and latency variation management for two-stage detectors on edge devices
- Title(参考訳): Lotus:エッジデバイス上での2段階検出のための学習ベースのオンライン熱・潜時変動管理
- Authors: Yifan Gong, Yushu Wu, Zheng Zhan, Pu Zhao, Liangkai Liu, Chao Wu, Xulong Tang, Yanzhi Wang,
- Abstract要約: 2段階の物体検出器は、特に小さな物体を識別するために、高精度で正確な位置測定を行う。
2段階検出法に関連する計算コストは、エッジデバイスでより深刻な熱問題を引き起こす。
そこで我々は,CPUとGPUの周波数を動的にスケールアップする2段階検出器に適した新しいフレームワークであるLotusを提案する。
- 参考スコア(独自算出の注目度): 35.05167987125874
- License:
- Abstract: Two-stage object detectors exhibit high accuracy and precise localization, especially for identifying small objects that are favorable for various edge applications. However, the high computation costs associated with two-stage detection methods cause more severe thermal issues on edge devices, incurring dynamic runtime frequency change and thus large inference latency variations. Furthermore, the dynamic number of proposals in different frames leads to various computations over time, resulting in further latency variations. The significant latency variations of detectors on edge devices can harm user experience and waste hardware resources. To avoid thermal throttling and provide stable inference speed, we propose Lotus, a novel framework that is tailored for two-stage detectors to dynamically scale CPU and GPU frequencies jointly in an online manner based on deep reinforcement learning (DRL). To demonstrate the effectiveness of Lotus, we implement it on NVIDIA Jetson Orin Nano and Mi 11 Lite mobile platforms. The results indicate that Lotus can consistently and significantly reduce latency variation, achieve faster inference, and maintain lower CPU and GPU temperatures under various settings.
- Abstract(参考訳): 2段階の物体検出器は、特に様々なエッジ用途に好適な小さな物体を特定するために、高精度で正確な位置決めを示す。
しかし, 2段階検出法に関連する計算コストは, エッジデバイスにおいてより深刻な熱問題を引き起こし, 動的ランタイム周波数変化を引き起こし, 推論遅延のばらつきが大きい。
さらに、異なるフレームにおける提案の動的数は、時間とともに様々な計算をもたらし、さらなるレイテンシの変動をもたらす。
エッジデバイス上の検出器の大幅なレイテンシの変動は、ユーザエクスペリエンスやハードウェアリソースの浪費を損なう可能性がある。
そこで本研究では,2段階検出のための新しいフレームワークであるLotusを提案する。このフレームワークは,深部強化学習(DRL)に基づくオンライン手法で,CPUとGPUの周波数を動的にスケールアップする。
Lotusの有効性を示すため,NVIDIA Jetson Orin NanoとMi 11 Liteモバイルプラットフォーム上で実装した。
その結果、Lotusはレイテンシのばらつきを一貫して大幅に低減し、推論を高速化し、CPUとGPUの低い温度をさまざまな設定で維持できることがわかった。
関連論文リスト
- E2USD: Efficient-yet-effective Unsupervised State Detection for Multivariate Time Series [18.02694168117277]
本稿では,効率的な非教師付き状態検出を可能にするE2Usdを提案する。
E2UsdはFast Fourier TransformベースのTime SeriesとDecomposed Dual-view Embedding Moduleを利用している。
また,偽陰性の影響を抑えるために,偽陰性キャンセレーションコントラスト学習法を提案する。
論文 参考訳(メタデータ) (2024-02-21T10:16:57Z) - Correlating sparse sensing for large-scale traffic speed estimation: A
Laplacian-enhanced low-rank tensor kriging approach [76.45949280328838]
本稿では,Laplacian enhanced Low-rank tensor (LETC) フレームワークを提案する。
次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-21T07:25:57Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Robust Time Series Dissimilarity Measure for Outlier Detection and
Periodicity Detection [16.223509730658513]
本稿では,ノイズや外れ値の影響を低減するため,RobostDTWという新しい時系列差分尺度を提案する。
具体的には、ロバストDTWは、設計した時間グラフトレンドフィルタリングを利用して、トレンドを推定し、時間ワープを交互に最適化する。
実世界のデータセットを用いた実験では、外乱時系列検出と周期性検出の両方において、DTWの変種と比較してロバストDTWの優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-07T00:49:16Z) - Hardware-Robust In-RRAM-Computing for Object Detection [0.15113576014047125]
In-RRAMコンピューティングは、ハードウェアにおいて大きなデバイスバリエーションと多くの非理想的効果に悩まされた。
本稿では,オブジェクト検出のためのハードウェアロバストIRCマクロを設計するためのハードウェアとソフトウェアの共同最適化手法を提案する。
提案手法は3.85%のmAP降下しか持たない複雑な物体検出タスクにうまく適用されている。
論文 参考訳(メタデータ) (2022-05-09T01:46:24Z) - Taking ROCKET on an Efficiency Mission: Multivariate Time Series
Classification with LightWaveS [3.5786621294068373]
正確な多変量時系列分類のためのフレームワークLightWaveSを提案する。
ROCKETの機能はわずか2.5%しか採用していないが、最近のディープラーニングモデルに匹敵する精度を実現している。
エッジデバイス上での推論において, ROCKETと比較して9倍から65倍のスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2022-04-04T10:52:20Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Joint Detection and Tracking in Videos with Identification Features [36.55599286568541]
本稿では,ビデオ検出,追跡,再識別機能の最初の共同最適化を提案する。
提案手法はMOTの最先端に到達し,オンライントラッカーにおけるUA-DETRAC'18追跡課題のうち,第1位,第3位にランクインした。
論文 参考訳(メタデータ) (2020-05-21T21:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。