論文の概要: FastWave: Accelerating Autoregressive Convolutional Neural Networks on
FPGA
- arxiv url: http://arxiv.org/abs/2002.04971v1
- Date: Sun, 9 Feb 2020 06:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:02:11.489937
- Title: FastWave: Accelerating Autoregressive Convolutional Neural Networks on
FPGA
- Title(参考訳): FastWave:FPGAによる自己回帰畳み込みニューラルネットワークの高速化
- Authors: Shehzeen Hussain, Mojan Javaheripi, Paarth Neekhara, Ryan Kastner and
Farinaz Koushanfar
- Abstract要約: WaveNetは、拡張畳み込みの複数のレイヤで構成された、深く自己回帰的なCNNである。
我々は,自己回帰畳み込みニューラルネットワークのための最初のアクセラレータtextitFastWaveを開発した。
- 参考スコア(独自算出の注目度): 27.50143717931293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive convolutional neural networks (CNNs) have been widely
exploited for sequence generation tasks such as audio synthesis, language
modeling and neural machine translation. WaveNet is a deep autoregressive CNN
composed of several stacked layers of dilated convolution that is used for
sequence generation. While WaveNet produces state-of-the art audio generation
results, the naive inference implementation is quite slow; it takes a few
minutes to generate just one second of audio on a high-end GPU. In this work,
we develop the first accelerator platform~\textit{FastWave} for autoregressive
convolutional neural networks, and address the associated design challenges. We
design the Fast-Wavenet inference model in Vivado HLS and perform a wide range
of optimizations including fixed-point implementation, array partitioning and
pipelining. Our model uses a fully parameterized parallel architecture for fast
matrix-vector multiplication that enables per-layer customized latency
fine-tuning for further throughput improvement. Our experiments comparatively
assess the trade-off between throughput and resource utilization for various
optimizations. Our best WaveNet design on the Xilinx XCVU13P FPGA that uses
only on-chip memory, achieves 66 faster generation speed compared to CPU
implementation and 11 faster generation speed than GPU implementation.
- Abstract(参考訳): 自動回帰畳み込みニューラルネットワーク(CNN)は、音声合成、言語モデリング、ニューラルネットワーク翻訳などのシーケンス生成タスクに広く利用されている。
WaveNetは、シーケンス生成に使用される拡張畳み込みの複数のレイヤで構成された、深い自己回帰CNNである。
wavenetは最先端のオーディオ生成結果を生成するが、ナイーブ推論の実装は非常に遅く、ハイエンドgpu上で1秒のオーディオを生成するのに数分かかる。
本研究では,自己回帰畳み込みニューラルネットワークのための最初のアクセラレータプラットフォーム~\textit{fastwave}を開発し,関連する設計課題に対処する。
我々は、vivado hlsで高速ウェーブネット推論モデルを設計し、固定点実装、配列分割、パイプライン化を含む幅広い最適化を行う。
このモデルでは,高速な行列ベクトル乗算に完全パラメータ化並列アーキテクチャを用い,層単位の遅延の微調整を可能とし,さらなるスループット向上を実現している。
本実験は,様々な最適化のためのスループットと資源利用のトレードオフを比較評価する。
オンチップメモリのみを使用するXilinx XCVU13P FPGAのWaveNet設計は、CPU実装と比較して66速、GPU実装より11速を実現しています。
関連論文リスト
- H2PIPE: High throughput CNN Inference on FPGAs with High-Bandwidth Memory [1.0056445773367833]
畳み込みニューラルネットワーク(CNN)は、大量の並列化可能な計算と頻繁なメモリアクセスを組み合わせる。
この作業は最先端のデータフローアクセラレータを拡張して、HBM(High-Bandwidth Memory)とオンチップストレージの両方を活用する。
最高の先行研究と比較して、ResNet-18、ResNet-50、VGG-16で、少なくとも19.4x、5.1x、10.5xのスピードアップが得られる。
論文 参考訳(メタデータ) (2024-08-17T14:25:32Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Framewise WaveGAN: High Speed Adversarial Vocoder in Time Domain with
Very Low Computational Complexity [23.49462995118466]
フレームワイズWaveGAN vocoderは、LPCNetのような自動回帰最大化ボコーダよりも1.2GFLOPSの非常に低い複雑さで高い品質を実現する。
これにより、GANボコーダはエッジや低消費電力デバイスでより実用的になる。
論文 参考訳(メタデータ) (2022-12-08T19:38:34Z) - WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on
Fixed-Point Iteration [47.07494621683752]
本研究では,TextitWaveFitと呼ばれる高速で高品質なニューラルボコーダを提案する。
WaveFitは、GANの本質を固定点反復に基づくDDPMのような反復フレームワークに統合します。
主観的聴力試験では,人間の自然な発話と5つの反復によるWaveFitで合成された音声の自然性に統計的に有意な差は認められなかった。
論文 参考訳(メタデータ) (2022-10-03T15:45:05Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - FastSeq: Make Sequence Generation Faster [20.920579109726024]
我々は,精度を損なわずにシーケンス生成を高速化するFastSeqフレームワークを開発した。
様々なモデルで広く使われているベンチマークの結果は、4-9倍の推論速度向上を示す。
FastSeqは単純な1行のコード変更で簡単に使える。
論文 参考訳(メタデータ) (2021-06-08T22:25:28Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Toward Accurate Platform-Aware Performance Modeling for Deep Neural
Networks [0.17499351967216337]
機械学習に基づくPerfNetV2は、さまざまなGPUアクセラレータ上でのニューラルネットワークのパフォーマンスをモデル化するための、これまでの作業の精度を向上させる。
アプリケーションを利用すると、アプリケーションで使用される畳み込みニューラルネットワークの推論時間とトレーニング時間を予測することができる。
我々のケーススタディでは、PerfNetV2が13.1%のLeNet、AlexNet、VGG16、NVIDIA GTX-1080Tiで平均絶対パーセンテージエラーを発生し、ICBD 2018で発表された以前の研究のエラー率は200%に達する可能性がある。
論文 参考訳(メタデータ) (2020-12-01T01:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。