Fugu-MT 論文翻訳(概要): A Highly Configurable Hardware/Software Stack for DNN Inference Acceleration

論文の概要: A Highly Configurable Hardware/Software Stack for DNN Inference Acceleration

arxiv url: http://arxiv.org/abs/2111.15024v1
Date: Mon, 29 Nov 2021 23:44:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-02 06:36:30.779243
Title: A Highly Configurable Hardware/Software Stack for DNN Inference Acceleration
Title（参考訳）: DNN推論高速化のための高構成ハードウェア/ソフトウェアスタック
Authors: Suvadeep Banerjee, Steve Burns, Pasquale Cocchini, Abhijit Davare, Shweta Jain, Desmond Kirkpatrick, Anton Sorokin, Jin Yang, Zhenkun Yang
Abstract要約: この仕事は、ドメイン固有のアクセラレーターのための効率的なアジャイル設計方法論に焦点を当てます。我々は,垂直開発スタックの機能強化を採用し,TVM/VTA推論アクセラレータに適用する。
参考スコア（独自算出の注目度）: 1.872579542469324
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work focuses on an efficient Agile design methodology for domain-specific accelerators. We employ feature-by-feature enhancement of a vertical development stack and apply it to the TVM/VTA inference accelerator. We have enhanced the VTA design space and enabled end-to-end support for additional workloads. This has been accomplished by augmenting the VTA micro-architecture and instruction set architecture (ISA), as well as by enhancing the TVM compilation stack to support a wide range of VTA configs. The VTA tsim implementation (CHISEL-based) has been enhanced with fully pipelined versions of the ALU/GEMM execution units. In tsim, memory width can now range between 8-64 bytes. Field widths have been made more flexible to support larger scratchpads. New instructions have been added: element-wise 8-bit multiplication to support depthwise convolution, and load with a choice of pad values to support max pooling. Support for more layers and better double buffering has also been added. Fully pipelining ALU/GEMM helps significantly: 4.9x fewer cycles with minimal area change to run ResNet-18 under the default config. Configs featuring a further 11.5x decrease in cycle count at a cost of 12x greater area can be instantiated. Many points on the area-performance pareto curve are shown, showcasing the balance of execution unit sizing, memory interface width, and scratchpad sizing. Finally, VTA is now able to run Mobilenet 1.0 and all layers for ResNets, including the previously disabled pooling and fully connected layers. The TVM/VTA architecture has always featured end-to-end workload evaluation on RTL in minutes. With our modifications, it now offers a much greater number of feasible configurations with a wide range of cost vs. performance. All capabilities mentioned are available in opensource forks while a subset of these capabilities have already been upstreamed.
Abstract（参考訳）: この仕事は、ドメイン特化アクセラレーターのための効率的なアジャイル設計方法論にフォーカスします。我々は,縦型開発スタックの機能拡張を行い,tvm/vta推論アクセラレータに適用する。 VTA設計スペースを拡張し、追加のワークロードに対してエンドツーエンドのサポートを可能にしました。これは、VTAマイクロアーキテクチャと命令セットアーキテクチャ(ISA)の強化と、広範囲なVTA構成をサポートするためにTVMコンパイルスタックの拡張によって実現されている。 VTA tsim実装(CHISELベース)は、ALU/GEMM実行ユニットの完全なパイプラインバージョンで拡張されている。 tsimでは、メモリ幅が8-64バイトになった。フィールド幅はより大きなスクラッチパッドをサポートするように柔軟になった。新しい命令が追加された: 奥行きの畳み込みをサポートする要素ワイド8ビット乗算と、最大プールをサポートするパッド値の選択をロードする。より多くのレイヤとより良いダブルバッファのサポートも追加された。完全なパイプライン化 ALU/GEMM は、ResNet-18 をデフォルト設定で実行するために、最小限の領域変更を伴うサイクルを4.9倍削減する。さらに11.5倍のサイクルカウントを12倍のコストで含む構成をインスタンス化することができる。エリアパフォーマンスパレート曲線の多くのポイントを示し、実行ユニットサイズ、メモリインターフェース幅、スクラッチパッドサイズのバランスを示す。最後に、VTAはMobilenet 1.0とResNetsのすべてのレイヤを実行することができる。 TVM/VTAアーキテクチャは常に、RTLのエンドツーエンドのワークロード評価を数分で行う。私たちの変更により、幅広いコスト対パフォーマンスを備えた、実現可能な構成がより多く提供されます。前述のすべての機能はオープンソースフォークで利用可能だが、これらの機能のサブセットはすでにアップストリームされている。

関連論文リスト

BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文参考訳（メタデータ） (2025-07-11T17:28:56Z)
InTAR: Inter-Task Auto-Reconfigurable Accelerator Design for High Data Volume Variation in DNNs [5.762543012823378]
InTARはFPGA上のHDVアプリケーションのための新しいアクセラレータ設計手法である。回路設計の前に決定された静的スケジュールで実行パターンを自動的に切り替える。 InTARは、少ないリソースと低い再構成時間で高いクロック周波数を達成する。
論文参考訳（メタデータ） (2025-02-12T21:43:51Z)
EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文参考訳（メタデータ） (2025-01-13T12:11:07Z)
Memory-Optimized Once-For-All Network [5.008189006630566]
メモリ制限OF(MOOFA)スーパーネットは、異なる構成でメモリ使用量を最大化するように設計されている。私たちのコードはhttps://github.com/MaximeGirard/Memory-optimized-once-for-all.comで利用可能です。
論文参考訳（メタデータ） (2024-09-05T20:06:33Z)
MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding [11.030853173032199]
LLM(Large Language Models)は、長いコンテキストのアプリケーションで広く使われるようになった。投機的復号法(SD)は、性能を犠牲にすることなくレイテンシを低減する手法として広く用いられている。我々は,中間列から長列の高スループット推論方式であっても,驚くほどSDが高速化可能であることを示す。
論文参考訳（メタデータ） (2024-08-20T17:57:31Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter [40.616849959987555]
本稿では,大規模言語モデル (LLM) を大容量かつメモリ効率のよいアダプタで微調整する機構を提案する。これは、LLMのFeed-Forward Networks(FFN)における固有のアクティベーション間隔を活用することで実現される。我々は、不必要なCPU計算を緩和し、GPUとCPU間の通信量を削減するために、Mixture of Experts(MoE)のようなアーキテクチャを採用している。
論文参考訳（メタデータ） (2024-06-07T14:49:22Z)
InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。 InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文参考訳（メタデータ） (2023-03-29T17:59:58Z)
VEGETA: Vertically-Integrated Extensions for Sparse/Dense GEMM Tile Acceleration on CPUs [7.807134159136234]
この研究は、高密度マトリックスエンジン上でのISAおよびマイクロアーキテクチャ拡張の集合であるVEGETAを示し、CPUの柔軟な構造的空間性をサポートする。 VEGETAエンジンは、4:4 (dense), 2:4, 1:4, and unstructured sparse Layerを実行するときに1.09x, 2.20x, 3.74x, 3.28xのスピードアップを提供する。
論文参考訳（メタデータ） (2023-02-17T04:35:58Z)
Deep Patch Visual Odometry [66.8086971254714]
ディープパッチ・ビジュアル・オドメトリー(DPVO)はモノクル・ビジュアル・オドメトリー(VO)のための新しいディープラーニングシステムである DPVOは、時間にわたってイメージパッチを追跡するように設計された、新しいリカレントネットワークアーキテクチャを使用している。標準ベンチマークでは、DPVOは、学習に基づく最先端のVOシステムを含む、これまでのすべての作業より優れています。
論文参考訳（メタデータ） (2022-08-08T04:47:38Z)
Lightweight and Progressively-Scalable Networks for Semantic Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文参考訳（メタデータ） (2022-07-27T16:00:28Z)
SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文参考訳（メタデータ） (2022-07-10T08:25:47Z)
Diverse Branch Block: Building a Convolution as an Inception-like Unit [123.59890802196797]
畳み込みニューラルネットワーク(Convolutional Neural Network、ConvNet)のユニバーサルビルディングブロックを提案し、推論時間コストなしでパフォーマンスを向上させる。 Diverse Branch Block(DBB)は、異なるスケールと複雑さの多様なブランチを組み合わせることで、単一の畳み込みの表現能力を高めます。トレーニング後、DBBを単一のConv層に等価に変換してデプロイすることができる。
論文参考訳（メタデータ） (2021-03-24T18:12:00Z)
Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文参考訳（メタデータ） (2020-09-04T20:17:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。