論文の概要: Torch2Chip: An End-to-end Customizable Deep Neural Network Compression and Deployment Toolkit for Prototype Hardware Accelerator Design
- arxiv url: http://arxiv.org/abs/2405.01775v2
- Date: Mon, 6 May 2024 15:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 12:26:52.083486
- Title: Torch2Chip: An End-to-end Customizable Deep Neural Network Compression and Deployment Toolkit for Prototype Hardware Accelerator Design
- Title(参考訳): Torch2Chip: プロトタイプハードウェアアクセラレータ設計のためのエンドツーエンドでカスタマイズ可能なDeep Neural Network Compression and Deployment Toolkit
- Authors: Jian Meng, Yuan Liao, Anupreetham Anupreetham, Ahmed Hasssan, Shixing Yu, Han-sok Suh, Xiaofeng Hu, Jae-sun Seo,
- Abstract要約: 設計とデプロイ"ワークフローは、現在のハードウェア・アルゴリズムの共同設計コミュニティにおいて、未解決の課題に直面しています。
我々は,ユーザ設計圧縮をサポートするオープンソースで,完全にカスタマイズ可能な,高性能なツールキットであるTorch2Chipを提案する。
Torch2Chipには階層型設計ワークフローが組み込まれており、ユーザカスタマイズ圧縮アルゴリズムは、プロトタイプチップ検証のためにデプロイ可能なフォーマットに直接詰め込まれている。
- 参考スコア(独自算出の注目度): 7.412488459502081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of model compression is continuously motivated by the evolution of various neural network accelerators with ASIC or FPGA. On the algorithm side, the ultimate goal of quantization or pruning is accelerating the expensive DNN computations on low-power hardware. However, such a "design-and-deploy" workflow faces under-explored challenges in the current hardware-algorithm co-design community. First, although the state-of-the-art quantization algorithm can achieve low precision with negligible degradation of accuracy, the latest deep learning framework (e.g., PyTorch) can only support non-customizable 8-bit precision, data format, and parameter extraction. Secondly, the objective of quantization is to enable the computation with low-precision data. However, the current SoTA algorithm treats the quantized integer as an intermediate result, while the final output of the quantizer is the "discretized" floating-point values, ignoring the practical needs and adding additional workload to hardware designers for integer parameter extraction and layer fusion. Finally, the compression toolkits designed by the industry are constrained to their in-house product or a handful of algorithms. The limited degree of freedom in the current toolkit and the under-explored customization hinder the prototype ASIC or FPGA-based accelerator design. To resolve these challenges, we propose Torch2Chip, an open-sourced, fully customizable, and high-performance toolkit that supports user-designed compression followed by automatic model fusion and parameter extraction. Torch2Chip incorporates the hierarchical design workflow, and the user-customized compression algorithm will be directly packed into the deployment-ready format for prototype chip verification with either CNN or vision transformer (ViT). The code is available at https://github.com/SeoLabCornell/torch2chip.
- Abstract(参考訳): モデル圧縮の開発は、ASICやFPGAによる様々なニューラルネットワークアクセラレータの進化によって継続的に動機付けられている。
アルゴリズム側では、量子化やプルーニングの最終的な目標は、低消費電力ハードウェア上での高価なDNN計算を加速させることである。
しかしながら、このような"Design-and-deploy"ワークフローは、現在のハードウェア・アルゴリズムの共同設計コミュニティにおいて、未解決の課題に直面している。
第一に、最先端の量子化アルゴリズムは精度の劣化を無視して低い精度を達成することができるが、最新のディープラーニングフレームワーク(例えば、PyTorch)は、非減衰可能な8ビット精度、データフォーマット、パラメータ抽出しかサポートできない。
第二に、量子化の目的は、低精度のデータによる計算を可能にすることである。
しかし、現在のSoTAアルゴリズムは量子化整数を中間結果として扱い、一方、量子化器の最終出力は「分散」浮動小数点値であり、実際的な要求を無視し、整数パラメータ抽出と層融合のためのハードウェア設計者に追加の作業負荷を加える。
最後に、業界によって設計された圧縮ツールキットは、自社製品または少数のアルゴリズムに制約される。
現在のツールキットの限られた自由度と未探索のカスタマイズは、ASICまたはFPGAベースのアクセル設計を妨げている。
これらの課題を解決するために,Torch2Chipを提案する。Torch2Chipはオープンソースで,完全にカスタマイズ可能で,ユーザ設計の圧縮と自動モデル融合とパラメータ抽出をサポートする高性能ツールキットである。
Torch2Chip には階層型設計ワークフローが組み込まれており、ユーザカスタマイズ圧縮アルゴリズムは CNN または Vision Transformer (ViT) を使ったプロトタイプチップ検証用のデプロイ可能なフォーマットに直接組み込まれている。
コードはhttps://github.com/SeoLabCornell/torch2chipで公開されている。
関連論文リスト
- DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural
Network Quantization [31.494669469303954]
ハードウェアオーバーヘッドの少ない低ビット量子化を実現するため,ANTと呼ばれる固定長適応型数値型を提案する。
我々の設計は、最先端の量子化加速器よりも2.8$times$スピードアップと2.5$times$エネルギー効率の改善をもたらす。
論文 参考訳(メタデータ) (2022-08-30T14:12:49Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Hardware-Centric AutoML for Mixed-Precision Quantization [34.39845532939529]
従来の量子化アルゴリズムは、異なるハードウェアアーキテクチャを無視し、すべてのレイヤを均一に量子化する。
本稿では、強化学習を利用して量子化ポリシーを自動的に決定するハードウェア・アウェア自動量子化(HAQ)フレームワークを紹介する。
本フレームワークは, 固定ビット幅(8ビット)の量子化と比較して, 遅延を1.4-1.95x, エネルギー消費を1.9x削減した。
論文 参考訳(メタデータ) (2020-08-11T17:30:22Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。