論文の概要: A Highly Configurable Hardware/Software Stack for DNN Inference
Acceleration
- arxiv url: http://arxiv.org/abs/2111.15024v1
- Date: Mon, 29 Nov 2021 23:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 06:36:30.779243
- Title: A Highly Configurable Hardware/Software Stack for DNN Inference
Acceleration
- Title(参考訳): DNN推論高速化のための高構成ハードウェア/ソフトウェアスタック
- Authors: Suvadeep Banerjee, Steve Burns, Pasquale Cocchini, Abhijit Davare,
Shweta Jain, Desmond Kirkpatrick, Anton Sorokin, Jin Yang, Zhenkun Yang
- Abstract要約: この仕事は、ドメイン固有のアクセラレーターのための効率的なアジャイル設計方法論に焦点を当てます。
我々は,垂直開発スタックの機能強化を採用し,TVM/VTA推論アクセラレータに適用する。
- 参考スコア(独自算出の注目度): 1.872579542469324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work focuses on an efficient Agile design methodology for
domain-specific accelerators. We employ feature-by-feature enhancement of a
vertical development stack and apply it to the TVM/VTA inference accelerator.
We have enhanced the VTA design space and enabled end-to-end support for
additional workloads. This has been accomplished by augmenting the VTA
micro-architecture and instruction set architecture (ISA), as well as by
enhancing the TVM compilation stack to support a wide range of VTA configs.
The VTA tsim implementation (CHISEL-based) has been enhanced with fully
pipelined versions of the ALU/GEMM execution units. In tsim, memory width can
now range between 8-64 bytes. Field widths have been made more flexible to
support larger scratchpads. New instructions have been added: element-wise
8-bit multiplication to support depthwise convolution, and load with a choice
of pad values to support max pooling. Support for more layers and better double
buffering has also been added.
Fully pipelining ALU/GEMM helps significantly: 4.9x fewer cycles with minimal
area change to run ResNet-18 under the default config. Configs featuring a
further 11.5x decrease in cycle count at a cost of 12x greater area can be
instantiated. Many points on the area-performance pareto curve are shown,
showcasing the balance of execution unit sizing, memory interface width, and
scratchpad sizing. Finally, VTA is now able to run Mobilenet 1.0 and all layers
for ResNets, including the previously disabled pooling and fully connected
layers.
The TVM/VTA architecture has always featured end-to-end workload evaluation
on RTL in minutes. With our modifications, it now offers a much greater number
of feasible configurations with a wide range of cost vs. performance. All
capabilities mentioned are available in opensource forks while a subset of
these capabilities have already been upstreamed.
- Abstract(参考訳): この仕事は、ドメイン特化アクセラレーターのための効率的なアジャイル設計方法論にフォーカスします。
我々は,縦型開発スタックの機能拡張を行い,tvm/vta推論アクセラレータに適用する。
VTA設計スペースを拡張し、追加のワークロードに対してエンドツーエンドのサポートを可能にしました。
これは、VTAマイクロアーキテクチャと命令セットアーキテクチャ(ISA)の強化と、広範囲なVTA構成をサポートするためにTVMコンパイルスタックの拡張によって実現されている。
VTA tsim実装(CHISELベース)は、ALU/GEMM実行ユニットの完全なパイプラインバージョンで拡張されている。
tsimでは、メモリ幅が8-64バイトになった。
フィールド幅はより大きなスクラッチパッドをサポートするように柔軟になった。
新しい命令が追加された: 奥行きの畳み込みをサポートする要素ワイド8ビット乗算と、最大プールをサポートするパッド値の選択をロードする。
より多くのレイヤとより良いダブルバッファのサポートも追加された。
完全なパイプライン化 ALU/GEMM は、ResNet-18 をデフォルト設定で実行するために、最小限の領域変更を伴うサイクルを4.9倍削減する。
さらに11.5倍のサイクルカウントを12倍のコストで含む構成をインスタンス化することができる。
エリアパフォーマンスパレート曲線の多くのポイントを示し、実行ユニットサイズ、メモリインターフェース幅、スクラッチパッドサイズのバランスを示す。
最後に、VTAはMobilenet 1.0とResNetsのすべてのレイヤを実行することができる。
TVM/VTAアーキテクチャは常に、RTLのエンドツーエンドのワークロード評価を数分で行う。
私たちの変更により、幅広いコスト対パフォーマンスを備えた、実現可能な構成がより多く提供されます。
前述のすべての機能はオープンソースフォークで利用可能だが、これらの機能のサブセットはすでにアップストリームされている。
関連論文リスト
- MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding [11.030853173032199]
LLM(Large Language Models)は、長いコンテキストのアプリケーションで広く使われるようになった。
投機的復号法(SD)は、性能を犠牲にすることなくレイテンシを低減する手法として広く用いられている。
我々は,中間列から長列の高スループット推論方式であっても,驚くほどSDが高速化可能であることを示す。
論文 参考訳(メタデータ) (2024-08-20T17:57:31Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter [40.616849959987555]
本稿では,大規模言語モデル (LLM) を大容量かつメモリ効率のよいアダプタで微調整する機構を提案する。
これは、LLMのFeed-Forward Networks(FFN)における固有のアクティベーション間隔を活用することで実現される。
我々は、不必要なCPU計算を緩和し、GPUとCPU間の通信量を削減するために、Mixture of Experts(MoE)のようなアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-07T14:49:22Z) - InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - VEGETA: Vertically-Integrated Extensions for Sparse/Dense GEMM Tile
Acceleration on CPUs [7.807134159136234]
この研究は、高密度マトリックスエンジン上でのISAおよびマイクロアーキテクチャ拡張の集合であるVEGETAを示し、CPUの柔軟な構造的空間性をサポートする。
VEGETAエンジンは、4:4 (dense), 2:4, 1:4, and unstructured sparse Layerを実行するときに1.09x, 2.20x, 3.74x, 3.28xのスピードアップを提供する。
論文 参考訳(メタデータ) (2023-02-17T04:35:58Z) - Deep Patch Visual Odometry [66.8086971254714]
ディープパッチ・ビジュアル・オドメトリー(DPVO)はモノクル・ビジュアル・オドメトリー(VO)のための新しいディープラーニングシステムである
DPVOは、時間にわたってイメージパッチを追跡するように設計された、新しいリカレントネットワークアーキテクチャを使用している。
標準ベンチマークでは、DPVOは、学習に基づく最先端のVOシステムを含む、これまでのすべての作業より優れています。
論文 参考訳(メタデータ) (2022-08-08T04:47:38Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - Diverse Branch Block: Building a Convolution as an Inception-like Unit [123.59890802196797]
畳み込みニューラルネットワーク(Convolutional Neural Network、ConvNet)のユニバーサルビルディングブロックを提案し、推論時間コストなしでパフォーマンスを向上させる。
Diverse Branch Block(DBB)は、異なるスケールと複雑さの多様なブランチを組み合わせることで、単一の畳み込みの表現能力を高めます。
トレーニング後、DBBを単一のConv層に等価に変換してデプロイすることができる。
論文 参考訳(メタデータ) (2021-03-24T18:12:00Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。