Fugu-MT 論文翻訳(概要): Efficient Accelerator for Dilated and Transposed Convolution with Decomposition

論文の概要: Efficient Accelerator for Dilated and Transposed Convolution with Decomposition

arxiv url: http://arxiv.org/abs/2205.02103v1
Date: Mon, 2 May 2022 10:05:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-05 16:24:48.791899
Title: Efficient Accelerator for Dilated and Transposed Convolution with Decomposition
Title（参考訳）: 分解を伴う拡張・転置コンボリューションの効率的な加速器
Authors: Kuo-Wei Chang, and Tian-Sheuan Chang
Abstract要約: 本稿では,拡張畳み込みと転置畳み込みをそれぞれ分解して冗長計算を省略する設計を提案する。提案したアーキテクチャは、87.8%のサイクルカウントを削減し、8.2倍のスピードアップを実現している。
参考スコア（独自算出の注目度）: 2.168067178566365
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Hardware acceleration for dilated and transposed convolution enables real time execution of related tasks like segmentation, but current designs are specific for these convolutional types or suffer from complex control for reconfigurable designs. This paper presents a design that decomposes input or weight for dilated and transposed convolutions respectively to skip redundant computations and thus executes efficiently on existing dense CNN hardware as well. The proposed architecture can cut down 87.8\% of the cycle counts to achieve 8.2X speedup over a naive execution for the ENet case.
Abstract（参考訳）: 拡張および変換された畳み込みのためのハードウェアアクセラレーションは、セグメンテーションのような関連するタスクをリアルタイムに実行可能にするが、現在の設計はこれらの畳み込みに特化している。本稿では,拡張畳み込みと転置畳み込みをそれぞれ分解して冗長計算を省略し,既存の高密度CNNハードウェアでも効率的に実行する設計を提案する。提案されたアーキテクチャは、サイクルカウントの87.8\%を削減でき、enetケースのnaive実行よりも8.2倍のスピードアップを達成できる。

関連論文リスト

InTAR: Inter-Task Auto-Reconfigurable Accelerator Design for High Data Volume Variation in DNNs [5.762543012823378]
InTARはFPGA上のHDVアプリケーションのための新しいアクセラレータ設計手法である。回路設計の前に決定された静的スケジュールで実行パターンを自動的に切り替える。 InTARは、少ないリソースと低い再構成時間で高いクロック周波数を達成する。
論文参考訳（メタデータ） (2025-02-12T21:43:51Z)
StoX-Net: Stochastic Processing of Partial Sums for Efficient In-Memory Computing DNN Accelerators [5.245727758971415]
ディープニューラルネットワーク(DNN)のハードウェアアクセラレーションのための有望なプラットフォームとして、クロスバーウェアベースのインメモリコンピューティング(IMC)が登場した。
論文参考訳（メタデータ） (2024-07-17T07:56:43Z)
SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文参考訳（メタデータ） (2024-05-27T10:25:08Z)
Accelerating ViT Inference on FPGA through Static and Dynamic Pruning [2.8595179027282907]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて最先端の精度を実現している。重みとトークンプルーニングは複雑さを減らすためのよく知られた方法である。 FPGA上でのViTの高速化を同時に行うためのアルゴリズムハードウェア符号を提案する。
論文参考訳（メタデータ） (2024-03-21T00:09:04Z)
KyberMat: Efficient Accelerator for Matrix-Vector Polynomial Multiplication in CRYSTALS-Kyber Scheme via NTT and Polyphase Decomposition [20.592217626952507]
CRYSTAL-Kyber (Kyber) は、標準化プロセス中に選択された暗号鍵カプセル化機構 (KEM) の1つである。本稿では,Kyberアーキテクチャのレイテンシとスループットの制約に対する最適化について述べる。
論文参考訳（メタデータ） (2023-10-06T22:57:25Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文参考訳（メタデータ） (2023-03-31T23:30:48Z)
Performance Embeddings: A Similarity-based Approach to Automatic Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文参考訳（メタデータ） (2023-03-14T15:51:35Z)
VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。 FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文参考訳（メタデータ） (2022-01-17T20:27:52Z)
High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文参考訳（メタデータ） (2021-05-09T14:22:43Z)
An Efficient Accelerator Design Methodology for Deformable Convolutional Networks [16.392643034008348]
FPGA上での変形可能な畳み込みを高速化する新しい手法を提案する。受容場を最適化することにより、受容場の最大サイズを12.6倍に圧縮することができる。我々の加速器は最先端の加速器で最大17.25倍のスピードアップを達成した。
論文参考訳（メタデータ） (2020-06-09T13:16:44Z)
Age-Based Coded Computation for Bias Reduction in Distributed Learning [57.9123881133818]
コード計算は、分散学習の高速化に使用することができる。勾配ベクトルの部分回復は、各反復時の計算時間をさらに短縮することができる。重なり合う行動が時間とともに相関すると、推定バイアスが特に顕著になる。
論文参考訳（メタデータ） (2020-06-02T17:51:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。