論文の概要: Automated Design Space Exploration for optimised Deployment of DNN on
Arm Cortex-A CPUs
- arxiv url: http://arxiv.org/abs/2006.05181v2
- Date: Tue, 15 Dec 2020 19:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 13:24:48.968304
- Title: Automated Design Space Exploration for optimised Deployment of DNN on
Arm Cortex-A CPUs
- Title(参考訳): Arm Cortex-A CPU上でのDNNの最適化展開のための設計空間の自動探索
- Authors: Miguel de Prado, Andrew Mundy, Rabia Saeed, Maurizio Denna, Nuria
Pazos and Luca Benini
- Abstract要約: 組み込みデバイスにおけるディープラーニングは、ディープニューラルネットワーク(DNN)のデプロイを最適化する多くの方法の開発を促している。
テストし、グローバルに最適化されたソリューションを得るには、アプローチの空間が大きすぎるため、クロスレベル最適化に関する研究が不足している。
我々は、Arm Cortex-A CPUプラットフォーム上での最先端DNNの一連の結果を示し、最大4倍の性能向上とメモリの2倍以上の削減を実現した。
- 参考スコア(独自算出の注目度): 13.628734116014819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The spread of deep learning on embedded devices has prompted the development
of numerous methods to optimise the deployment of deep neural networks (DNN).
Works have mainly focused on: i) efficient DNN architectures, ii) network
optimisation techniques such as pruning and quantisation, iii) optimised
algorithms to speed up the execution of the most computational intensive layers
and, iv) dedicated hardware to accelerate the data flow and computation.
However, there is a lack of research on cross-level optimisation as the space
of approaches becomes too large to test and obtain a globally optimised
solution. Thus, leading to suboptimal deployment in terms of latency, accuracy,
and memory. In this work, we first detail and analyse the methods to improve
the deployment of DNNs across the different levels of software optimisation.
Building on this knowledge, we present an automated exploration framework to
ease the deployment of DNNs. The framework relies on a Reinforcement Learning
search that, combined with a deep learning inference framework, automatically
explores the design space and learns an optimised solution that speeds up the
performance and reduces the memory on embedded CPU platforms. Thus, we present
a set of results for state-of-the-art DNNs on a range of Arm Cortex-A CPU
platforms achieving up to 4x improvement in performance and over 2x reduction
in memory with negligible loss in accuracy with respect to the BLAS
floating-point implementation.
- Abstract(参考訳): 組み込みデバイスへのディープラーニングの普及により、ディープニューラルネットワーク(DNN)のデプロイを最適化する多くの方法の開発が進められている。
主に作品に焦点が当てられている。
i)効率的なdnnアーキテクチャ
二 刈り取り及び量子化等のネットワーク最適化技術
三 最適化アルゴリズムにより、最も計算集約的な層の実行を高速化し、かつ、
四 データの流れ及び計算を加速するための専用ハードウェア
しかし、アプローチの空間が大きすぎるとテストが困難になり、グローバルに最適化された解を得るため、クロスレベル最適化の研究は欠如している。
したがって、レイテンシ、正確性、メモリという観点で、最適でないデプロイメントに繋がる。
本稿では,まず,ソフトウェア最適化の異なるレベルにまたがるdnnの展開を改善する手法を詳述し,分析する。
この知識に基づいてDNNの展開を容易にするための自動探索フレームワークを提案する。
このフレームワークは、ディープラーニング推論フレームワークと組み合わせて、自動的に設計空間を探索し、パフォーマンスを高速化し、組み込みCPUプラットフォーム上のメモリを削減する最適化されたソリューションを学ぶ強化学習検索に依存している。
そこで本研究では,Arm Cortex-A CPUプラットフォーム上での最先端DNNの性能向上と,BLAS浮動小数点実装における精度の低下を考慮せずに,メモリの2倍以上の削減を実現していることを示す。
関連論文リスト
- Combining Neural Architecture Search and Automatic Code Optimization: A Survey [0.8796261172196743]
ハードウェア対応ニューラルアーキテクチャサーチ(HW-NAS)と自動コード最適化(ACO)の2つの特長がある。
HW-NASは正確だがハードウェアフレンドリなニューラルネットワークを自動設計する。
この調査では、これらの2つのテクニックをひとつのフレームワークで組み合わせた最近の研究について調査する。
論文 参考訳(メタデータ) (2024-08-07T22:40:05Z) - Spyx: A Library for Just-In-Time Compiled Optimization of Spiking Neural
Networks [0.08965418284317034]
Spiking Neural Networks(SNN)は、小さくて低消費電力なハードウェアフットプリントによるエネルギー効率の向上を提供する。
本稿では、JAXで設計された新しい軽量SNNシミュレーションおよび最適化ライブラリSpyxを紹介する。
論文 参考訳(メタデータ) (2024-02-29T09:46:44Z) - Flexible Channel Dimensions for Differentiable Architecture Search [50.33956216274694]
本稿では,効率的な動的チャネル割当アルゴリズムを用いた新しい微分可能なニューラルアーキテクチャ探索法を提案する。
提案するフレームワークは,タスク精度と推論遅延において,従来の手法と等価なDNNアーキテクチャを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-06-13T15:21:38Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - HAO: Hardware-aware neural Architecture Optimization for Efficient
Inference [25.265181492143107]
ニューラルネットワーク探索アルゴリズムの設計空間を縮小するための整数プログラミングアルゴリズムを開発する。
私たちのアルゴリズムは、フレームレート50でImageNetの72.5%のトップ-1精度を達成し、MnasNetよりも60%高速で、比較精度でFBNetよりも135%高速です。
論文 参考訳(メタデータ) (2021-04-26T17:59:29Z) - HSCoNAS: Hardware-Software Co-Design of Efficient DNNs via Neural
Architecture Search [6.522258468923919]
深層ニューラルネットワーク(DNN)の設計を自動化するため,新しいハードウェア対応ニューラルアーキテクチャサーチ(NAS)フレームワークであるHSCoNASを提案する。
この目的を達成するために,まず,ターゲットハードウェア上でのdnnのランタイム遅延を近似する効果的なハードウェア性能モデリング手法を提案する。
また, 動的チャネルスケーリングにより, 指定されたレイテンシとプログレッシブスペースの縮小下での精度を最大化し, 対象ハードウェアに対する検索空間を改良する手法を提案する。
論文 参考訳(メタデータ) (2021-03-11T12:21:21Z) - Analytical Characterization and Design Space Exploration for
Optimization of CNNs [10.15406080228806]
ループタイルやループ置換を含むループレベルの最適化は、データ移動を減らすための基本的な変換です。
本稿では,マルチコアCPU上でのCNNの最適ループレベル最適化構成を求めるための解析モデルを提案する。
論文 参考訳(メタデータ) (2021-01-24T21:36:52Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。