論文の概要: A Highly Configurable Hardware/Software Stack for DNN Inference
Acceleration
- arxiv url: http://arxiv.org/abs/2111.15024v1
- Date: Mon, 29 Nov 2021 23:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 06:36:30.779243
- Title: A Highly Configurable Hardware/Software Stack for DNN Inference
Acceleration
- Title(参考訳): DNN推論高速化のための高構成ハードウェア/ソフトウェアスタック
- Authors: Suvadeep Banerjee, Steve Burns, Pasquale Cocchini, Abhijit Davare,
Shweta Jain, Desmond Kirkpatrick, Anton Sorokin, Jin Yang, Zhenkun Yang
- Abstract要約: この仕事は、ドメイン固有のアクセラレーターのための効率的なアジャイル設計方法論に焦点を当てます。
我々は,垂直開発スタックの機能強化を採用し,TVM/VTA推論アクセラレータに適用する。
- 参考スコア(独自算出の注目度): 1.872579542469324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work focuses on an efficient Agile design methodology for
domain-specific accelerators. We employ feature-by-feature enhancement of a
vertical development stack and apply it to the TVM/VTA inference accelerator.
We have enhanced the VTA design space and enabled end-to-end support for
additional workloads. This has been accomplished by augmenting the VTA
micro-architecture and instruction set architecture (ISA), as well as by
enhancing the TVM compilation stack to support a wide range of VTA configs.
The VTA tsim implementation (CHISEL-based) has been enhanced with fully
pipelined versions of the ALU/GEMM execution units. In tsim, memory width can
now range between 8-64 bytes. Field widths have been made more flexible to
support larger scratchpads. New instructions have been added: element-wise
8-bit multiplication to support depthwise convolution, and load with a choice
of pad values to support max pooling. Support for more layers and better double
buffering has also been added.
Fully pipelining ALU/GEMM helps significantly: 4.9x fewer cycles with minimal
area change to run ResNet-18 under the default config. Configs featuring a
further 11.5x decrease in cycle count at a cost of 12x greater area can be
instantiated. Many points on the area-performance pareto curve are shown,
showcasing the balance of execution unit sizing, memory interface width, and
scratchpad sizing. Finally, VTA is now able to run Mobilenet 1.0 and all layers
for ResNets, including the previously disabled pooling and fully connected
layers.
The TVM/VTA architecture has always featured end-to-end workload evaluation
on RTL in minutes. With our modifications, it now offers a much greater number
of feasible configurations with a wide range of cost vs. performance. All
capabilities mentioned are available in opensource forks while a subset of
these capabilities have already been upstreamed.
- Abstract(参考訳): この仕事は、ドメイン特化アクセラレーターのための効率的なアジャイル設計方法論にフォーカスします。
我々は,縦型開発スタックの機能拡張を行い,tvm/vta推論アクセラレータに適用する。
VTA設計スペースを拡張し、追加のワークロードに対してエンドツーエンドのサポートを可能にしました。
これは、VTAマイクロアーキテクチャと命令セットアーキテクチャ(ISA)の強化と、広範囲なVTA構成をサポートするためにTVMコンパイルスタックの拡張によって実現されている。
VTA tsim実装(CHISELベース)は、ALU/GEMM実行ユニットの完全なパイプラインバージョンで拡張されている。
tsimでは、メモリ幅が8-64バイトになった。
フィールド幅はより大きなスクラッチパッドをサポートするように柔軟になった。
新しい命令が追加された: 奥行きの畳み込みをサポートする要素ワイド8ビット乗算と、最大プールをサポートするパッド値の選択をロードする。
より多くのレイヤとより良いダブルバッファのサポートも追加された。
完全なパイプライン化 ALU/GEMM は、ResNet-18 をデフォルト設定で実行するために、最小限の領域変更を伴うサイクルを4.9倍削減する。
さらに11.5倍のサイクルカウントを12倍のコストで含む構成をインスタンス化することができる。
エリアパフォーマンスパレート曲線の多くのポイントを示し、実行ユニットサイズ、メモリインターフェース幅、スクラッチパッドサイズのバランスを示す。
最後に、VTAはMobilenet 1.0とResNetsのすべてのレイヤを実行することができる。
TVM/VTAアーキテクチャは常に、RTLのエンドツーエンドのワークロード評価を数分で行う。
私たちの変更により、幅広いコスト対パフォーマンスを備えた、実現可能な構成がより多く提供されます。
前述のすべての機能はオープンソースフォークで利用可能だが、これらの機能のサブセットはすでにアップストリームされている。
関連論文リスト
- InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - VEGETA: Vertically-Integrated Extensions for Sparse/Dense GEMM Tile
Acceleration on CPUs [7.807134159136234]
この研究は、高密度マトリックスエンジン上でのISAおよびマイクロアーキテクチャ拡張の集合であるVEGETAを示し、CPUの柔軟な構造的空間性をサポートする。
VEGETAエンジンは、4:4 (dense), 2:4, 1:4, and unstructured sparse Layerを実行するときに1.09x, 2.20x, 3.74x, 3.28xのスピードアップを提供する。
論文 参考訳(メタデータ) (2023-02-17T04:35:58Z) - Deep Patch Visual Odometry [66.8086971254714]
ディープパッチ・ビジュアル・オドメトリー(DPVO)はモノクル・ビジュアル・オドメトリー(VO)のための新しいディープラーニングシステムである
DPVOは、時間にわたってイメージパッチを追跡するように設計された、新しいリカレントネットワークアーキテクチャを使用している。
標準ベンチマークでは、DPVOは、学習に基づく最先端のVOシステムを含む、これまでのすべての作業より優れています。
論文 参考訳(メタデータ) (2022-08-08T04:47:38Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - VSA: Learning Varied-Size Window Attention in Vision Transformers [76.35955924137986]
データから適応的なウィンドウ構成を学習するためのtextbfVaried-textbfSize Window textbfAttention (VSA)を提案する。
デフォルトウィンドウ内のトークンに基づいて、VSAはターゲットウィンドウのサイズと位置を予測するためにウィンドウ回帰モジュールを使用する。
論文 参考訳(メタデータ) (2022-04-18T17:56:07Z) - Diverse Branch Block: Building a Convolution as an Inception-like Unit [123.59890802196797]
畳み込みニューラルネットワーク(Convolutional Neural Network、ConvNet)のユニバーサルビルディングブロックを提案し、推論時間コストなしでパフォーマンスを向上させる。
Diverse Branch Block(DBB)は、異なるスケールと複雑さの多様なブランチを組み合わせることで、単一の畳み込みの表現能力を高めます。
トレーニング後、DBBを単一のConv層に等価に変換してデプロイすることができる。
論文 参考訳(メタデータ) (2021-03-24T18:12:00Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z) - DORY: Automatic End-to-End Deployment of Real-World DNNs on Low-Cost IoT
MCUs [6.403349961091506]
低コストのMCUベースのエンドノードはオンチップメモリが限られており、キャッシュをスクラッチパッドで置き換えることが多い。
DORYは、通常1MB以下のオンチップメモリを持つ低価格のMCUにデプロイする自動ツールである。
論文 参考訳(メタデータ) (2020-08-17T07:30:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。