論文の概要: Mixed-TD: Efficient Neural Network Accelerator with Layer-Specific
Tensor Decomposition
- arxiv url: http://arxiv.org/abs/2306.05021v1
- Date: Thu, 8 Jun 2023 08:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:34:14.734649
- Title: Mixed-TD: Efficient Neural Network Accelerator with Layer-Specific
Tensor Decomposition
- Title(参考訳): Mixed-TD: 層状テンソル分解を用いた高効率ニューラルネットワーク加速器
- Authors: Zhewen Yu, Christos-Savvas Bouganis
- Abstract要約: そこで我々は,Mixed-TDと呼ばれるテンソル分解法に基づいて,CNNをFPGAにマッピングするフレームワークを提案する。
提案手法は,DSP毎の1.73倍から10.29倍のスループットを最先端CNNに適用し,層固有特異値分解(SVD)とカノニカルポリアディック分解(CPD)を混合的に適用する。
- 参考スコア(独自算出の注目度): 7.221206118679026
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural Network designs are quite diverse, from VGG-style to ResNet-style, and
from Convolutional Neural Networks to Transformers. Towards the design of
efficient accelerators, many works have adopted a dataflow-based, inter-layer
pipelined architecture, with a customised hardware towards each layer,
achieving ultra high throughput and low latency. The deployment of neural
networks to such dataflow architecture accelerators is usually hindered by the
available on-chip memory as it is desirable to preload the weights of neural
networks on-chip to maximise the system performance. To address this, networks
are usually compressed before the deployment through methods such as pruning,
quantization and tensor decomposition. In this paper, a framework for mapping
CNNs onto FPGAs based on a novel tensor decomposition method called Mixed-TD is
proposed. The proposed method applies layer-specific Singular Value
Decomposition (SVD) and Canonical Polyadic Decomposition (CPD) in a mixed
manner, achieving 1.73x to 10.29x throughput per DSP to state-of-the-art CNNs.
Our work is open-sourced: https://github.com/Yu-Zhewen/Mixed-TD
- Abstract(参考訳): ニューラルネットワークの設計は、VGGスタイルからResNetスタイル、畳み込みニューラルネットワークからトランスフォーマーまで、非常に多様である。
効率的な加速器の設計に向けて、多くの作品はデータフローベースの層間パイプラインアーキテクチャを採用し、各層にカスタマイズされたハードウェアを備え、超高スループットと低レイテンシを実現している。
このようなデータフローアーキテクチャアクセラレータへのニューラルネットワークのデプロイは、システムパフォーマンスを最大化するためにニューラルネットワークの重みをオンチップにプリロードすることが望ましいため、利用可能なオンチップメモリによって妨げられる。
これに対処するために、ネットワークは通常、プルーニング、量子化、テンソル分解などの手法によって展開前に圧縮される。
本論文では,mixed-tdと呼ばれる新しいテンソル分解法に基づいて,cnnをfpgaにマッピングする枠組みを提案する。
提案手法は,DSP毎の1.73倍から10.29倍のスループットを最先端CNNに適用し,層固有特異値分解(SVD)とカノニカルポリアディック分解(CPD)を混合的に適用する。
私たちの作業はオープンソースです。 https://github.com/Yu-Zhewen/Mixed-TD
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - WavPool: A New Block for Deep Neural Networks [2.2311710049695446]
マルチレゾリューション・パーセプトロンと呼ばれる新しいウェーブレット変換型ネットワークアーキテクチャを導入する。
プーリング層を追加することで、新しいネットワークブロック、WavPoolを作成します。
WavPoolはパラメータを減らしながら同様の多層パーセプトロンを上回り、CIFAR-10の相対的精度で同等の畳み込みニューラルネットワークを10%上回る。
論文 参考訳(メタデータ) (2023-06-14T20:35:01Z) - Efficient Implementation of a Multi-Layer Gradient-Free Online-Trainable
Spiking Neural Network on FPGA [0.31498833540989407]
ODESAは、グラデーションを使わずに、エンド・ツー・エンドの多層オンラインローカル教師ありトレーニングを行う最初のネットワークである。
本研究は,ネットワークアーキテクチャと重みとしきい値のオンライントレーニングを,大規模ハードウェア上で効率的に実施可能であることを示す。
論文 参考訳(メタデータ) (2023-05-31T00:34:15Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。
我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。
SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-23T18:37:22Z) - Nonlinear Tensor Ring Network [39.89070144585793]
最先端のディープニューラルネットワーク(DNN)は、様々な現実世界のアプリケーションに広く適用されており、認知問題に対して大きなパフォーマンスを実現している。
冗長モデルをコンパクトなモデルに変換することで、圧縮技術はストレージとメモリ消費を減らすための実用的な解決策であるように見える。
本稿では,完全連結層と畳み込み層の両方を圧縮した非線形テンソルリングネットワーク(NTRN)を開発する。
論文 参考訳(メタデータ) (2021-11-12T02:02:55Z) - Convolutional Neural Network Compression through Generalized Kronecker
Product Decomposition [2.4240083226965115]
我々は、クロネッカー積分解を一般化して層を圧縮し、多次元に応用し、一般化クロネッカー積分解(GKPD)へと導く。
当社のアプローチでは,任意の畳み込みレイヤのドロップイン代替として使用可能なプラグイン・アンド・プレイモジュールが生成される。
論文 参考訳(メタデータ) (2021-09-29T20:45:08Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。
この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-08-06T04:38:38Z) - DHP: Differentiable Meta Pruning via HyperNetworks [158.69345612783198]
本稿では,ネットワークの自動プルーニングのためのハイパーネットによる識別可能なプルーニング手法を提案する。
遅延ベクトルは、バックボーンネットワーク内の畳み込み層の出力チャネルを制御し、レイヤのプルーニングのハンドルとして機能する。
画像分類、単一画像超解像、復調のための様々なネットワークで実験が行われた。
論文 参考訳(メタデータ) (2020-03-30T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。