Fugu-MT 論文翻訳(概要): Dynamic DNNs and Runtime Management for Efficient Inference on Mobile/Embedded Devices

論文の概要: Dynamic DNNs and Runtime Management for Efficient Inference on Mobile/Embedded Devices

arxiv url: http://arxiv.org/abs/2401.08965v1
Date: Wed, 17 Jan 2024 04:40:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 17:00:00.204053
Title: Dynamic DNNs and Runtime Management for Efficient Inference on Mobile/Embedded Devices
Title（参考訳）: モバイル/組み込みデバイス上での効率的な推論のための動的DNNと実行管理
Authors: Lei Xun, Jonathon Hare, Geoff V. Merrett
Abstract要約: ディープニューラルネットワーク(DNN)推論は、モバイルおよび組み込みプラットフォームでますます実行されています。システムレベルの性能とエネルギー効率を最大化する新しいDynamic Super-Networksを共同で設計した。 SOTAと比較すると、Jetson Xavier NXのGPU上でのImageNetを用いた実験結果は、類似のImageNet Top-1精度で2.4倍、類似のレイテンシで5.1%高速であることを示している。
参考スコア（独自算出の注目度）: 2.8851756275902476
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep neural network (DNN) inference is increasingly being executed on mobile and embedded platforms due to several key advantages in latency, privacy and always-on availability. However, due to limited computing resources, efficient DNN deployment on mobile and embedded platforms is challenging. Although many hardware accelerators and static model compression methods were proposed by previous works, at system runtime, multiple applications are typically executed concurrently and compete for hardware resources. This raises two main challenges: Runtime Hardware Availability and Runtime Application Variability. Previous works have addressed these challenges through either dynamic neural networks that contain sub-networks with different performance trade-offs or runtime hardware resource management. In this thesis, we proposed a combined method, a system was developed for DNN performance trade-off management, combining the runtime trade-off opportunities in both algorithms and hardware to meet dynamically changing application performance targets and hardware constraints in real time. We co-designed novel Dynamic Super-Networks to maximise runtime system-level performance and energy efficiency on heterogeneous hardware platforms. Compared with SOTA, our experimental results using ImageNet on the GPU of Jetson Xavier NX show our model is 2.4x faster for similar ImageNet Top-1 accuracy, or 5.1% higher accuracy at similar latency. We also designed a hierarchical runtime resource manager that tunes both dynamic neural networks and DVFS at runtime. Compared with the Linux DVFS governor schedutil, our runtime approach achieves up to a 19% energy reduction and a 9% latency reduction in single model deployment scenario, and an 89% energy reduction and a 23% latency reduction in a two concurrent model deployment scenario.
Abstract（参考訳）: レイテンシ、プライバシ、常時オンの可用性にいくつかの大きなメリットがあるため、モバイルおよび組み込みプラットフォームでは、ディープニューラルネットワーク(DNN)推論がますます実行されている。しかし、限られたコンピューティングリソースのため、モバイルおよび組み込みプラットフォームでの効率的なDNNデプロイメントは困難である。多くのハードウェアアクセラレータと静的モデル圧縮手法が以前の研究によって提案されたが、システムランタイムでは、複数のアプリケーションが並列に実行され、ハードウェアリソースと競合することが多い。これにより、実行時ハードウェアアベイラビリティと実行時アプリケーション変数という2つの大きな課題が提起される。これまでの研究は、異なるパフォーマンストレードオフを持つサブネットワークを含む動的ニューラルネットワークや、実行時のハードウェアリソース管理を通じて、これらの課題に対処してきた。そこで本論文では,dnnの性能トレードオフ管理のためのシステムとして,動的に変化するアプリケーション性能目標とハードウェア制約をリアルタイムに満たすために,アルゴリズムとハードウェアの両方のランタイムトレードオフを組み合わせる手法を提案する。ヘテロジニアスハードウェアプラットフォーム上でのランタイムシステムレベルの性能とエネルギー効率を最大化する新しいDynamic Super-Networksを共同開発した。 SOTAと比較すると、Jetson Xavier NXのGPU上でのImageNetを用いた実験結果は、類似のImageNet Top-1精度で2.4倍、類似のレイテンシで5.1%高速であることを示している。また、動的ニューラルネットワークとDVFSの両方を実行時にチューニングする階層型ランタイムリソースマネージャも設計しました。 Linux DVFS Governor schedutilと比較して、我々のランタイムアプローチは、単一モデルデプロイメントシナリオで19%のエネルギー削減と9%のレイテンシ削減を実現し、2つの並列モデルデプロイメントシナリオで89%のエネルギー削減と23%のレイテンシ削減を実現しています。

関連論文リスト

FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文参考訳（メタデータ） (2023-10-17T09:25:17Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)
HADAS: Hardware-Aware Dynamic Neural Architecture Search for Edge Performance Scaling [8.29394286023338]
動的ニューラルネットワーク(DyNN)は、リソース制約されたエッジデバイス上でのインテリジェンスを実現するための有効な技術となっている。多くの場合、設計段階で基盤となるバックボーンアーキテクチャが開発されているため、DyNNの実装は準最適である。我々は、バックボーン、早期終了機能、DVFS設定が協調的に最適化されたDyNNアーキテクチャを実現する新しいハードウェア対応動的ニューラルネットワーク探索フレームワークであるHADASを提案する。
論文参考訳（メタデータ） (2022-12-06T22:27:00Z)
Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文参考訳（メタデータ） (2022-09-27T15:04:01Z)
DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文参考訳（メタデータ） (2021-09-21T09:57:21Z)
Incremental Training and Group Convolution Pruning for Runtime DNN Performance Scaling on Heterogeneous Embedded Platforms [23.00896228073755]
Deep Neural Networksの推論は、モバイルおよび組み込みプラットフォームでローカルに実行されるようになっている。本稿では,インクリメンタルトレーニングとグループ畳み込みプルーニングを用いた動的DNNを提案する。タスクマッピングとDVFSを組み合わせて10.6倍(エネルギー)と41.6倍(時間)のダイナミックレンジを達成した。
論文参考訳（メタデータ） (2021-05-08T05:38:01Z)
Dynamic-OFA: Runtime DNN Architecture Switching for Performance Scaling on Heterogeneous Embedded Platforms [3.3197851873862385]
本稿では,最新のプラットフォーム対応NASモデル(すなわち,新しい動的DNNアプローチであるDynamic-OFAを提案する。 once-for-all network (OFA)) 最新技術と比較して,Jetson Xavier NX を用いた実験結果から,この手法は ImageNet Top-1 の精度で 3.5 倍高速であることがわかった。
論文参考訳（メタデータ） (2021-05-08T05:10:53Z)
Dynamic Slimmable Network [105.74546828182834]
ダイナミックスリム化システム「ダイナミックスリム化ネットワーク(DS-Net)」を開発。 ds-netは,提案するダブルヘッド動的ゲートによる動的推論機能を備えている。静的圧縮法と最先端の静的および動的モデル圧縮法を一貫して上回っている。
論文参考訳（メタデータ） (2021-03-24T15:25:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。