論文の概要: Efficient Accelerator for Dilated and Transposed Convolution with
Decomposition
- arxiv url: http://arxiv.org/abs/2205.02103v1
- Date: Mon, 2 May 2022 10:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 16:24:48.791899
- Title: Efficient Accelerator for Dilated and Transposed Convolution with
Decomposition
- Title(参考訳): 分解を伴う拡張・転置コンボリューションの効率的な加速器
- Authors: Kuo-Wei Chang, and Tian-Sheuan Chang
- Abstract要約: 本稿では,拡張畳み込みと転置畳み込みをそれぞれ分解して冗長計算を省略する設計を提案する。
提案したアーキテクチャは、87.8%のサイクルカウントを削減し、8.2倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 2.168067178566365
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hardware acceleration for dilated and transposed convolution enables real
time execution of related tasks like segmentation, but current designs are
specific for these convolutional types or suffer from complex control for
reconfigurable designs. This paper presents a design that decomposes input or
weight for dilated and transposed convolutions respectively to skip redundant
computations and thus executes efficiently on existing dense CNN hardware as
well. The proposed architecture can cut down 87.8\% of the cycle counts to
achieve 8.2X speedup over a naive execution for the ENet case.
- Abstract(参考訳): 拡張および変換された畳み込みのためのハードウェアアクセラレーションは、セグメンテーションのような関連するタスクをリアルタイムに実行可能にするが、現在の設計はこれらの畳み込みに特化している。
本稿では,拡張畳み込みと転置畳み込みをそれぞれ分解して冗長計算を省略し,既存の高密度CNNハードウェアでも効率的に実行する設計を提案する。
提案されたアーキテクチャは、サイクルカウントの87.8\%を削減でき、enetケースのnaive実行よりも8.2倍のスピードアップを達成できる。
関連論文リスト
- Non-Ideal Program-Time Conservation in Charge Trap Flash for Deep
Learning [0.0]
チャージトラップフラッシュ(CTF)は、インメモリコンピューティングを使用してディープニューラルネットワーク(DNN)を加速することができる。
本稿では, パルス入力測定によるCTFの非理想的プログラム時間保存について報告する。
本稿では,酸化的トラップチャージダイナミクスのブロックによる過渡的場拡大に基づく説明を行う。
論文 参考訳(メタデータ) (2023-07-12T11:19:55Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Dynamically Reconfigurable Variable-precision Sparse-Dense Matrix
Acceleration in Tensorflow Lite [0.0]
FADES(Fused Architecture for Dense and Sparse matrices)と呼ばれる動的に再構成可能なハードウェアアクセラレータを提案する。
FADES設計は、データフローモデルを使用して複雑さと並列性をトレードオフする複数の設定オプションを提供し、結果の読み込み、計算、スケール、書き込みの4つのステージを作成する。
また,ソフトウェア最適化のNEON RUYライブラリ上では,単一コアで最大20倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-04-17T12:31:50Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - Interconnect Parasitics and Partitioning in Fully-Analog In-Memory
Computing Architectures [0.0]
完全アナログIMCアーキテクチャに実装したディープニューラルネットワーク(DNN)モデルの精度に及ぼすワイヤ寄生抵抗と容量の影響について検討した。
本稿では,アナログ領域における計算を保ちながら寄生虫の影響を軽減するための分配機構を提案する。
分割処理に要する余分な回路により,高消費電力化による精度の向上が期待できる。
論文 参考訳(メタデータ) (2022-01-29T02:29:27Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z) - An Efficient Accelerator Design Methodology for Deformable Convolutional
Networks [16.392643034008348]
FPGA上での変形可能な畳み込みを高速化する新しい手法を提案する。
受容場を最適化することにより、受容場の最大サイズを12.6倍に圧縮することができる。
我々の加速器は最先端の加速器で最大17.25倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2020-06-09T13:16:44Z) - Age-Based Coded Computation for Bias Reduction in Distributed Learning [57.9123881133818]
コード計算は、分散学習の高速化に使用することができる。
勾配ベクトルの部分回復は、各反復時の計算時間をさらに短縮することができる。
重なり合う行動が時間とともに相関すると、推定バイアスが特に顕著になる。
論文 参考訳(メタデータ) (2020-06-02T17:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。