論文の概要: Does Form Follow Function? An Empirical Exploration of the Impact of
Deep Neural Network Architecture Design on Hardware-Specific Acceleration
- arxiv url: http://arxiv.org/abs/2107.04144v1
- Date: Thu, 8 Jul 2021 23:05:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 14:01:04.521570
- Title: Does Form Follow Function? An Empirical Exploration of the Impact of
Deep Neural Network Architecture Design on Hardware-Specific Acceleration
- Title(参考訳): フォームは機能しますか?
ハードウェア特化加速におけるディープニューラルネットワークアーキテクチャ設計の影響に関する実証的研究
- Authors: Saad Abbasi, Mohammad Javad Shafiee, Ellick Chan, and Alexander Wong
- Abstract要約: 本研究では,深層ニューラルネットワーク設計が推論速度向上の程度に与える影響について検討する。
ハードウェア固有のアクセラレーションを活用することで平均推論速度が380%向上する一方で、マクロアーキテクチャ設計パターンによって推論速度が大幅に変化することを示した。
- 参考スコア(独自算出の注目度): 76.35307867016336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fine-grained relationship between form and function with respect to deep
neural network architecture design and hardware-specific acceleration is one
area that is not well studied in the research literature, with form often
dictated by accuracy as opposed to hardware function. In this study, a
comprehensive empirical exploration is conducted to investigate the impact of
deep neural network architecture design on the degree of inference speedup that
can be achieved via hardware-specific acceleration. More specifically, we
empirically study the impact of a variety of commonly used macro-architecture
design patterns across different architectural depths through the lens of
OpenVINO microprocessor-specific and GPU-specific acceleration. Experimental
results showed that while leveraging hardware-specific acceleration achieved an
average inference speed-up of 380%, the degree of inference speed-up varied
drastically depending on the macro-architecture design pattern, with the
greatest speedup achieved on the depthwise bottleneck convolution design
pattern at 550%. Furthermore, we conduct an in-depth exploration of the
correlation between FLOPs requirement, level 3 cache efficacy, and network
latency with increasing architectural depth and width. Finally, we analyze the
inference time reductions using hardware-specific acceleration when compared to
native deep learning frameworks across a wide variety of hand-crafted deep
convolutional neural network architecture designs as well as ones found via
neural architecture search strategies. We found that the DARTS-derived
architecture to benefit from the greatest improvement from hardware-specific
software acceleration (1200%) while the depthwise bottleneck convolution-based
MobileNet-V2 to have the lowest overall inference time of around 2.4 ms.
- Abstract(参考訳): ディープニューラルネットワークアーキテクチャ設計とハードウェア固有のアクセラレーションに関する形式と関数のきめ細かい関係は、研究文献ではよく研究されていない分野であり、ハードウェア機能とは対照的に、形式が正確性によって決定されることが多い。
本研究では,深層ニューラルネットワークアーキテクチャ設計がハードウェア固有の加速度によって達成できる推論高速化の程度に与える影響を,包括的実験により調査した。
より具体的には、OpenVINOマイクロプロセッサとGPU固有のアクセラレーションのレンズを通して、さまざまなアーキテクチャ深度にわたる一般的なマクロアーキテクチャ設計パターンの影響を実証的に研究する。
実験結果から,ハードウェア固有のアクセラレーションを活用することで平均推論速度が380%向上する一方で,マクロアーキテクチャ設計パターンによって推論速度は大幅に変化し,最大速度は550%のボトルネック畳み込み設計パターンで達成された。
さらに,FLOPの要件,レベル3キャッシュの有効性,アーキテクチャの深さと幅の増大に伴うネットワーク遅延の相関関係を詳細に検討する。
最後に,多種多様な手作りの深層畳み込みニューラルネットワークアーキテクチャ設計と,ニューラルネットワーク探索戦略から得られたものとの比較により,ハードウェア固有の加速度を用いた推論時間削減を解析した。
DARTS由来のアーキテクチャは、ハードウェア固有のソフトウェアアクセラレーション(1200%)による最大の改善の恩恵を受けるのに対し、Deepwise bottleneck convolution-based MobileNet-V2は、およそ2.4msの予測時間で最低であることがわかった。
関連論文リスト
- Multi-conditioned Graph Diffusion for Neural Architecture Search [8.290336491323796]
本稿では、離散的な条件付きグラフ拡散プロセスを用いて、高性能ニューラルネットワークアーキテクチャを生成するグラフ拡散に基づくNAS手法を提案する。
6つの標準ベンチマークで有望な結果を示し、新しいアーキテクチャとユニークなアーキテクチャを高速に実現します。
論文 参考訳(メタデータ) (2024-03-09T21:45:31Z) - Neural Architecture Codesign for Fast Bragg Peak Analysis [1.7081438846690533]
我々は,高速かつリアルタイムなブラッグピーク解析のためのニューラルネットワーク符号の合理化のための自動パイプラインを開発した。
我々の手法では、ハードウェアコストを含むこれらのモデルを強化するために、ニューラルアーキテクチャ検索とAutoMLを使用し、よりハードウェア効率の良いニューラルアーキテクチャの発見に繋がる。
論文 参考訳(メタデータ) (2023-12-10T19:42:18Z) - TurboViT: Generating Fast Vision Transformers via Generative
Architecture Search [74.24393546346974]
近年、視覚変換器は様々な視覚認知タスクに対処する上で、前例のないレベルの性能を示している。
近年,効率的な視覚変換器の設計に関する研究が盛んに行われている。
本研究では,生成型アーキテクチャサーチによる高速ビジョントランスフォーマーアーキテクチャの設計について検討する。
論文 参考訳(メタデータ) (2023-08-22T13:08:29Z) - Fast GraspNeXt: A Fast Self-Attention Neural Network Architecture for
Multi-task Learning in Computer Vision Tasks for Robotic Grasping on the Edge [80.88063189896718]
アーキテクチャと計算の複雑さが高いと、組み込みデバイスへのデプロイに適さない。
Fast GraspNeXtは、ロボットグルーピングのためのコンピュータビジョンタスクに埋め込まれたマルチタスク学習に適した、高速な自己認識型ニューラルネットワークアーキテクチャである。
論文 参考訳(メタデータ) (2023-04-21T18:07:14Z) - Algorithm and Hardware Co-design for Reconfigurable CNN Accelerator [3.1431240233552007]
ディープニューラルネットワーク(DNN)のためのアルゴリズムハードウェアの共同設計の最近の進歩は、ニューラルネットワークやハードウェア設計を自動設計する可能性を示している。
しかし、高価なトレーニングコストと時間を要するハードウェア実装のため、これは依然として困難な最適化問題である。
本稿では,新しい3相共設計フレームワークを提案する。
ネットワークとハードウェアの構成は精度が2%向上し,レイテンシが2倍26倍,エネルギー効率が8.5倍向上した。
論文 参考訳(メタデータ) (2021-11-24T20:37:50Z) - ISyNet: Convolutional Neural Networks design for AI accelerator [0.0]
現在の最先端アーキテクチャは、モデル複雑さを考慮して、ニューラルアーキテクチャサーチ(NAS)によって発見されている。
本稿では,ニューラルネットワーク探索空間のハードウェア効率の指標として,行列効率測定(MEM),ハードウェア効率の高い演算からなる探索空間,レイテンシを考慮したスケーリング手法を提案する。
我々は、ImageNet上のNPUデバイスの設計アーキテクチャと、下流の分類および検出タスクの一般化能力の利点を示す。
論文 参考訳(メタデータ) (2021-09-04T20:57:05Z) - Rethinking Co-design of Neural Architectures and Hardware Accelerators [31.342964958282092]
我々は,ニューラルアーキテクチャとハードウェアアクセラレータの協調設計の重要性と戦略を体系的に研究する。
実験の結果, 統合探索法は, 従来のプラットフォーム認識型ニューラルアーキテクチャ検索を一貫して上回っていることがわかった。
提案手法は, エッジ加速器のエネルギー消費量を, 同じ精度で最大2倍に削減できる。
論文 参考訳(メタデータ) (2021-02-17T07:55:58Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z) - Stage-Wise Neural Architecture Search [65.03109178056937]
ResNetやNASNetのような現代の畳み込みネットワークは、多くのコンピュータビジョンアプリケーションで最先端の結果を得た。
これらのネットワークは、同じ解像度で表現を操作するレイヤのセットであるステージで構成されている。
各ステージにおけるレイヤー数の増加はネットワークの予測能力を向上させることが示されている。
しかし、結果として得られるアーキテクチャは、浮動小数点演算、メモリ要求、推論時間の観点から計算的に高価になる。
論文 参考訳(メタデータ) (2020-04-23T14:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。