論文の概要: Going Further With Winograd Convolutions: Tap-Wise Quantization for
Efficient Inference on 4x4 Tile
- arxiv url: http://arxiv.org/abs/2209.12982v1
- Date: Mon, 26 Sep 2022 19:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:18:06.321752
- Title: Going Further With Winograd Convolutions: Tap-Wise Quantization for
Efficient Inference on 4x4 Tile
- Title(参考訳): winogradの畳み込み: 4x4タイルの効率的な推論のためのタップワイズ量子化
- Authors: Renzo Andri, Beatrice Bussolino, Antonio Cipolletta, Lukas Cavigelli,
Zhe Wang
- Abstract要約: ウィノグラード畳み込みアルゴリズムは、標準アルゴリズムに比べてMACが少ない畳み込みを計算する。
本稿では,大きなタイルを使用する際の数値問題を克服する,タップワイズ量子化手法を提案する。
このようなカスタムモジュールを産業レベルのプログラム可能なDSAに統合する方法を示す。
- 参考スコア(独自算出の注目度): 7.705762754955851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of today's computer vision pipelines are built around deep neural
networks, where convolution operations require most of the generally high
compute effort. The Winograd convolution algorithm computes convolutions with
fewer MACs compared to the standard algorithm, reducing the operation count by
a factor of 2.25x for 3x3 convolutions when using the version with 2x2-sized
tiles $F_2$. Even though the gain is significant, the Winograd algorithm with
larger tile sizes, i.e., $F_4$, offers even more potential in improving
throughput and energy efficiency, as it reduces the required MACs by 4x.
Unfortunately, the Winograd algorithm with larger tile sizes introduces
numerical issues that prevent its use on integer domain-specific accelerators
and higher computational overhead to transform input and output data between
spatial and Winograd domains.
To unlock the full potential of Winograd $F_4$, we propose a novel tap-wise
quantization method that overcomes the numerical issues of using larger tiles,
enabling integer-only inference. Moreover, we present custom hardware units
that process the Winograd transformations in a power- and area-efficient way,
and we show how to integrate such custom modules in an industrial-grade,
programmable DSA. An extensive experimental evaluation on a large set of
state-of-the-art computer vision benchmarks reveals that the tap-wise
quantization algorithm makes the quantized Winograd $F_4$ network almost as
accurate as the FP32 baseline. The Winograd-enhanced DSA achieves up to 1.85x
gain in energy efficiency and up to 1.83x end-to-end speed-up for
state-of-the-art segmentation and detection networks.
- Abstract(参考訳): 今日のコンピュータビジョンパイプラインのほとんどはディープニューラルネットワークを中心に構築されており、畳み込み操作は一般的に高い計算労力を必要とする。
Winograd畳み込みアルゴリズムは、標準的なアルゴリズムに比べてMACが少ない畳み込みを計算し、2x2サイズのタイルを持つバージョンを使用する場合、3x3畳み込みの2.25倍の倍率で演算数を削減している。
利益は大きいものの、より大きなタイルサイズを持つウィノグラードアルゴリズム(例えば$f_4$)は、必要なmacを4倍削減するので、スループットとエネルギー効率をさらに向上させる可能性がある。
残念なことに、より大きなタイルサイズを持つWinogradアルゴリズムは、整数ドメイン固有のアクセラレーターの使用を阻止し、空間領域とWinogradドメイン間の入力と出力データを変換するための計算オーバーヘッドを高くする数値的な問題を提起している。
winograd $f_4$ のポテンシャルを最大限に発揮するために,より大きいタイルを用いた数値的な問題を克服し,整数のみの推論を可能にする新しいタップワイズ量子化法を提案する。
さらに、Winograd変換を電力効率と面積効率で処理するカスタムハードウェアユニットを提案し、そのようなカスタムモジュールを産業グレードでプログラム可能なDSAにどのように統合するかを示す。
最先端のコンピュータビジョンベンチマークの大規模な実験により、タップワイド量子化アルゴリズムは量子化されたWinograd$F_4$ネットワークをFP32ベースラインとほぼ同じ精度で実現していることが明らかとなった。
winograd-enhanced dsaは最大1.85倍のエネルギー効率を実現し、最先端のセグメンテーションと検出ネットワークのエンドツーエンドの最大1.83倍のスピードアップを実現している。
関連論文リスト
- Point Transformer V3: Simpler, Faster, Stronger [88.80496333515325]
本稿では,ポイントクラウド処理における精度と効率のトレードオフを克服することに焦点を当てる。
本稿では,特定のメカニズムの精度よりもシンプルさと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。
PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-15T18:59:59Z) - MB-TaylorFormer: Multi-branch Efficient Transformer Expanded by Taylor
Formula for Image Dehazing [88.61523825903998]
トランスフォーマーネットワークは、コンピュータビジョンの分野における純粋な畳み込みニューラルネットワーク(CNN)を置き換えるようになった。
そこで本研究では,Taylor拡張を応用してソフトマックスアテンションを近似し,線形計算複雑性を実現するトランスフォーマー変種を提案する。
提案するTransformerにマルチスケールパッチを組み込んだマルチブランチアーキテクチャを導入する。
Taylor式(MB-TaylorFormer)により拡張されたMulti-branch Transformerと呼ばれる我々のモデルは、パッチ埋め込み段階でより柔軟に粗さを微細な特徴に埋め込むことができ、計算コストに制限のある長距離画素相互作用を捉えることができる。
論文 参考訳(メタデータ) (2023-08-27T08:10:23Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Winograd Algorithm for AdderNet [54.93995545896655]
Adder Neural Network(AdderNet)は、畳み込みにおける元の巨大な乗算を加算によって置き換える新しい種類のディープモデルである。
本稿では,コンボリューションの高速化と計算コストの削減を目的とした高速アルゴリズムであるWinogradアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2021-05-12T09:13:34Z) - Accelerating Large Kernel Convolutions with Nested Winograd
Transformation.pdf [2.193040410545991]
この研究は、大きなカーネルの畳み込みを小さなカーネルの畳み込みに繰り返し分解するネスト付きウィノグラードアルゴリズムを提案する。
実験により、線形分解ウィノグラード法と比較して、4x4から31x31の畳み込みを計算するために、提案アルゴリズムは乗算の総数を1.4倍から10.5倍に減らした。
論文 参考訳(メタデータ) (2021-02-26T02:42:42Z) - Efficient Residue Number System Based Winograd Convolution [15.210764522845416]
Winogradアルゴリズムは、浮動小数点で表現される重みとアクティベーションを持つ畳み込みニューラルネットワーク(CNN)の計算複雑性を低減することができる。
我々の研究はWinogradアルゴリズムをResidue Number System (RNS)に拡張した。
最小の複雑性畳み込みは、大きな変換タイル上で正確に計算される。
論文 参考訳(メタデータ) (2020-07-23T19:07:06Z) - LANCE: Efficient Low-Precision Quantized Winograd Convolution for Neural
Networks Based on Graphics Processing Units [6.110973485878557]
我々は,高速畳み込みと量子化の利点を組み合わせた,LANCEと呼ばれる高速な低精度量子化ウィノグラード畳み込みアルゴリズムを提案する。
8ビットの量子化Winograd畳み込みは、精度の低下を伴う完全精度畳み込みよりも最大2.40倍の性能向上を示す。
論文 参考訳(メタデータ) (2020-03-19T09:46:50Z) - Region adaptive graph fourier transform for 3d point clouds [51.193111325231165]
本稿では,3次元点雲特性の圧縮のための領域適応グラフフーリエ変換(RA-GFT)を提案する。
RA-GFTは従来の手法よりも複雑性と性能のトレードオフが優れている。
論文 参考訳(メタデータ) (2020-03-04T02:47:44Z) - XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。
空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。
XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文 参考訳(メタデータ) (2020-02-27T11:46:17Z) - Searching for Winograd-aware Quantized Networks [12.351250944079949]
我々は、ウィノグラード変換によって導入された数値的不正確さを明らかにする畳み込み層のウィノグラード対応の定式化を提案する。
また, 数値誤差の原因にも対処し, 変換行列の形状を緩和し, CIFAR-10の分類精度を最大10%向上させる手法を提案する。
論文 参考訳(メタデータ) (2020-02-25T07:53:53Z) - DWM: A Decomposable Winograd Method for Convolution Acceleration [29.312042061351782]
Winogradの最小フィルタリングアルゴリズムは畳み込みニューラルネットワーク(CNN)において、高速な処理のための乗算数を減らすために広く使われている。
3x3より大きいカーネルサイズのFLOPと数値精度の問題に悩まされ、1より大きいストライドとの畳み込みに失敗する。
本稿では,従来のWinogradの最小フィルタリングアルゴリズムを広義かつ汎用的な畳み込みに制限することで,DWM(Decomposable Winograd Method)を提案する。
論文 参考訳(メタデータ) (2020-02-03T03:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。