論文の概要: perf4sight: A toolflow to model CNN training performance on Edge GPUs
- arxiv url: http://arxiv.org/abs/2108.05580v1
- Date: Thu, 12 Aug 2021 07:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-14 00:19:39.286003
- Title: perf4sight: A toolflow to model CNN training performance on Edge GPUs
- Title(参考訳): perf4sight: エッジgpu上でcnnトレーニングパフォーマンスをモデル化するツールフロー
- Authors: Aditya Rajagopal, Christos-Savvas Bouganis
- Abstract要約: この研究は、CNNのトレーニングメモリフットプリントとレイテンシを予測する正確なモデルを開発するための自動化手法であるperf4sightを提案する。
フレームワークはPyTorch、ターゲットデバイスはNVIDIA Jetson TX2、それぞれ95%と91%の精度でトレーニングメモリフットプリントとレイテンシを予測する。
- 参考スコア(独自算出の注目度): 16.61258138725983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increased memory and processing capabilities of today's edge devices
create opportunities for greater edge intelligence. In the domain of vision,
the ability to adapt a Convolutional Neural Network's (CNN) structure and
parameters to the input data distribution leads to systems with lower memory
footprint, latency and power consumption. However, due to the limited compute
resources and memory budget on edge devices, it is necessary for the system to
be able to predict the latency and memory footprint of the training process in
order to identify favourable training configurations of the network topology
and device combination for efficient network adaptation. This work proposes
perf4sight, an automated methodology for developing accurate models that
predict CNN training memory footprint and latency given a target device and
network. This enables rapid identification of network topologies that can be
retrained on the edge device with low resource consumption. With PyTorch as the
framework and NVIDIA Jetson TX2 as the target device, the developed models
predict training memory footprint and latency with 95% and 91% accuracy
respectively for a wide range of networks, opening the path towards efficient
network adaptation on edge GPUs.
- Abstract(参考訳): 今日のエッジデバイスのメモリと処理能力の増大は、エッジインテリジェンスを向上する機会を生み出します。
視覚領域では、畳み込みニューラルネットワーク(cnn)の構造とパラメータを入力データ分布に適応させる能力は、メモリフットプリント、レイテンシ、消費電力の低減につながる。
しかし、エッジデバイス上での計算資源とメモリ予算が限られているため、ネットワークトポロジーとデバイスの組み合わせの好ましいトレーニング構成を特定し、効率的なネットワーク適応のために、システムはトレーニングプロセスのレイテンシとメモリフットプリントを予測できる必要がある。
この研究は、ターゲットデバイスとネットワークからCNNのトレーニングメモリフットプリントとレイテンシを予測する、正確なモデルを開発する自動化手法であるperf4sightを提案する。
これにより、リソース消費の少ないエッジデバイス上で再トレーニング可能なネットワークトポロジの迅速な識別が可能になる。
PyTorchをフレームワークとして、NVIDIA Jetson TX2をターゲットデバイスとして、開発したモデルは、幅広いネットワークに対してそれぞれ95%と91%の精度でトレーニングメモリフットプリントとレイテンシを予測し、エッジGPU上で効率的なネットワーク適応への道を開く。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。
本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文 参考訳(メタデータ) (2023-06-08T13:11:20Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Towards Enabling Dynamic Convolution Neural Network Inference for Edge
Intelligence [0.0]
エッジインテリジェンスの最近の進歩は、スループットを高め、レイテンシを低減するために、エッジネットワーク上のCNN推論を必要とする。
柔軟性を得るためには、さまざまなモバイルデバイスに対する動的パラメータ割り当ては、事前に定義されたか、オンザフライで定義されたCNNアーキテクチャを実装する必要がある。
本稿では,スケーラブルで動的に分散したCNN推論を高速に設計するためのライブラリベースのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-18T22:33:42Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - CondenseNeXt: An Ultra-Efficient Deep Neural Network for Embedded
Systems [0.0]
畳み込みニューラルネットワーク(英: Convolutional Neural Network, CNN)は、画像センサが捉えた視覚画像の分析に広く用いられているディープニューラルネットワーク(DNN)のクラスである。
本稿では,組込みシステム上でのリアルタイム推論のために,既存のCNNアーキテクチャの性能を改善するために,深層畳み込みニューラルネットワークアーキテクチャの新しい変種を提案する。
論文 参考訳(メタデータ) (2021-12-01T18:20:52Z) - EffCNet: An Efficient CondenseNet for Image Classification on NXP
BlueBox [0.0]
エッジデバイスは、安価なハードウェアと限られた冷却と計算資源のために、限られた処理能力を提供する。
我々はエッジデバイスのためのEffCNetと呼ばれる新しいディープ畳み込みニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-28T21:32:31Z) - Communication-Efficient Separable Neural Network for Distributed
Inference on Edge Devices [2.28438857884398]
本稿では,分散推論のためのニューラルネットワークを分離するために,モデル並列性を利用する新しい手法を提案する。
デバイスの適切な仕様とモデルの構成の下で、エッジクラスタ上の大規模ニューラルネットワークの推論が分散し、加速可能であることを示す実験を行った。
論文 参考訳(メタデータ) (2021-11-03T19:30:28Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Now that I can see, I can improve: Enabling data-driven finetuning of
CNNs on the edge [11.789983276366987]
本稿では,構造化プルーニングに基づくエッジデバイス上でCNNの微調整を可能にするための第一歩を提供する。
パフォーマンスの向上とコストについて検討し、そのようなアプローチの展開を可能にするオープンソースフレームワークを提示する。
論文 参考訳(メタデータ) (2020-06-15T17:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。