論文の概要: Efficient Accelerator for Dilated and Transposed Convolution with
Decomposition
- arxiv url: http://arxiv.org/abs/2205.02103v1
- Date: Mon, 2 May 2022 10:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 16:24:48.791899
- Title: Efficient Accelerator for Dilated and Transposed Convolution with
Decomposition
- Title(参考訳): 分解を伴う拡張・転置コンボリューションの効率的な加速器
- Authors: Kuo-Wei Chang, and Tian-Sheuan Chang
- Abstract要約: 本稿では,拡張畳み込みと転置畳み込みをそれぞれ分解して冗長計算を省略する設計を提案する。
提案したアーキテクチャは、87.8%のサイクルカウントを削減し、8.2倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 2.168067178566365
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hardware acceleration for dilated and transposed convolution enables real
time execution of related tasks like segmentation, but current designs are
specific for these convolutional types or suffer from complex control for
reconfigurable designs. This paper presents a design that decomposes input or
weight for dilated and transposed convolutions respectively to skip redundant
computations and thus executes efficiently on existing dense CNN hardware as
well. The proposed architecture can cut down 87.8\% of the cycle counts to
achieve 8.2X speedup over a naive execution for the ENet case.
- Abstract(参考訳): 拡張および変換された畳み込みのためのハードウェアアクセラレーションは、セグメンテーションのような関連するタスクをリアルタイムに実行可能にするが、現在の設計はこれらの畳み込みに特化している。
本稿では,拡張畳み込みと転置畳み込みをそれぞれ分解して冗長計算を省略し,既存の高密度CNNハードウェアでも効率的に実行する設計を提案する。
提案されたアーキテクチャは、サイクルカウントの87.8\%を削減でき、enetケースのnaive実行よりも8.2倍のスピードアップを達成できる。
関連論文リスト
- StoX-Net: Stochastic Processing of Partial Sums for Efficient In-Memory Computing DNN Accelerators [5.245727758971415]
ディープニューラルネットワーク(DNN)のハードウェアアクセラレーションのための有望なプラットフォームとして、クロスバーウェアベースのインメモリコンピューティング(IMC)が登場した。
論文 参考訳(メタデータ) (2024-07-17T07:56:43Z) - SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。
本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文 参考訳(メタデータ) (2024-05-27T10:25:08Z) - Accelerating ViT Inference on FPGA through Static and Dynamic Pruning [2.8595179027282907]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて最先端の精度を実現している。
重みとトークンプルーニングは複雑さを減らすためのよく知られた方法である。
FPGA上でのViTの高速化を同時に行うためのアルゴリズムハードウェア符号を提案する。
論文 参考訳(メタデータ) (2024-03-21T00:09:04Z) - KyberMat: Efficient Accelerator for Matrix-Vector Polynomial Multiplication in CRYSTALS-Kyber Scheme via NTT and Polyphase Decomposition [20.592217626952507]
CRYSTAL-Kyber (Kyber) は、標準化プロセス中に選択された暗号鍵カプセル化機構 (KEM) の1つである。
本稿では,Kyberアーキテクチャのレイテンシとスループットの制約に対する最適化について述べる。
論文 参考訳(メタデータ) (2023-10-06T22:57:25Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z) - An Efficient Accelerator Design Methodology for Deformable Convolutional
Networks [16.392643034008348]
FPGA上での変形可能な畳み込みを高速化する新しい手法を提案する。
受容場を最適化することにより、受容場の最大サイズを12.6倍に圧縮することができる。
我々の加速器は最先端の加速器で最大17.25倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2020-06-09T13:16:44Z) - Age-Based Coded Computation for Bias Reduction in Distributed Learning [57.9123881133818]
コード計算は、分散学習の高速化に使用することができる。
勾配ベクトルの部分回復は、各反復時の計算時間をさらに短縮することができる。
重なり合う行動が時間とともに相関すると、推定バイアスが特に顕著になる。
論文 参考訳(メタデータ) (2020-06-02T17:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。