論文の概要: SFC: Achieve Accurate Fast Convolution under Low-precision Arithmetic
- arxiv url: http://arxiv.org/abs/2407.02913v1
- Date: Wed, 3 Jul 2024 08:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 15:05:39.414990
- Title: SFC: Achieve Accurate Fast Convolution under Low-precision Arithmetic
- Title(参考訳): SFC: Achieveが低精度算術下での高速畳み込みを正確に行う
- Authors: Liulu He, Yufei Zhao, Rui Gao, Yuan Du, Li Du,
- Abstract要約: WinogradやFFTといった高速畳み込みアルゴリズムは、深層モデルの畳み込み操作を効率的に高速化することができる。
これらのアルゴリズムは推論精度を維持するために高精度演算に依存しており、これはモデルの量子化と矛盾する。
本稿では、離散フーリエ変換をシンボル計算で拡張することにより、高速畳み込みのための新しい代数変換であるSFCを提案する。
我々の新しいアルゴリズムは、量子化アルゴリズムと高速畳み込み量子化に関する既存の研究の両方を超越しながら、精度を維持しながら量子化モデルの効率をさらに向上させることができることを示す。
- 参考スコア(独自算出の注目度): 20.150429327542128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fast convolution algorithms, including Winograd and FFT, can efficiently accelerate convolution operations in deep models. However, these algorithms depend on high-precision arithmetic to maintain inference accuracy, which conflicts with the model quantization. To resolve this conflict and further improve the efficiency of quantized convolution, we proposes SFC, a new algebra transform for fast convolution by extending the Discrete Fourier Transform (DFT) with symbolic computing, in which only additions are required to perform the transformation at specific transform points, avoiding the calculation of irrational number and reducing the requirement for precision. Additionally, we enhance convolution efficiency by introducing correction terms to convert invalid circular convolution outputs of the Fourier method into effective ones. The numerical error analysis is presented for the first time in this type of work and proves that our algorithms can provide a 3.68x multiplication reduction for 3x3 convolution, while the Winograd algorithm only achieves a 2.25x reduction with similarly low numerical errors. Experiments carried out on benchmarks and FPGA show that our new algorithms can further improve the computation efficiency of quantized models while maintaining accuracy, surpassing both the quantization-alone method and existing works on fast convolution quantization.
- Abstract(参考訳): WinogradやFFTなどの高速畳み込みアルゴリズムは、深層モデルの畳み込み操作を効率的に高速化することができる。
しかし、これらのアルゴリズムは推論精度を維持するために高精度演算に依存しており、これはモデルの量子化と矛盾する。
この対立を解消し、量子化畳み込みの効率をさらに向上するために、SFCを提案する。これは、離散フーリエ変換(DFT)をシンボル演算で拡張し、特定の変換点において変換を行うのに必要な追加のみを必要とし、不合理数の計算を回避し、精度の低下を図り、高速畳み込みのための新しい代数変換である。
さらに、フーリエ法の無効な円形畳み込み出力を効果的に変換する補正項を導入することにより、畳み込み効率を向上させる。
数値誤差解析は,3x3畳み込みに対して3.68倍の乗算還元が可能であることを示すとともに,Winogradアルゴリズムも同様に低い数値誤差で2.25倍の減算しか達成できないことを示す。
ベンチマークとFPGAで行った実験により、我々の新しいアルゴリズムは、量子化アルゴリズムと高速畳み込み量子化に関する既存の研究に勝らず、精度を保ちながら量子化モデルの計算効率をさらに向上できることを示した。
関連論文リスト
- Variable Substitution and Bilinear Programming for Aligning Partially Overlapping Point Sets [48.1015832267945]
本研究では,RPMアルゴリズムの最小化目的関数を用いて要求を満たす手法を提案する。
分岐とバウンド(BnB)アルゴリズムが考案され、パラメータのみに分岐し、収束率を高める。
実験による評価は,非剛性変形,位置雑音,外れ値に対する提案手法の高剛性を示す。
論文 参考訳(メタデータ) (2024-05-14T13:28:57Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Sparse Binary Transformers for Multivariate Time Series Modeling [1.3965477771846404]
軽量圧縮ニューラルネットワークは,高密度浮動小数点変換器に匹敵する精度が得られることを示す。
本モデルは,3つの時系列学習課題 – 分類,異常検出,単段階予測 – で良好な結果が得られる。
本稿では,パラメータ数,ビットサイズ,浮動小数点演算(FLOP)数など,さまざまな指標に対するアプローチの計算的節約度を測定した。
論文 参考訳(メタデータ) (2023-08-09T00:23:04Z) - Fast Computation of Optimal Transport via Entropy-Regularized Extragradient Methods [75.34939761152587]
2つの分布間の最適な輸送距離の効率的な計算は、様々な応用を促進するアルゴリズムとして機能する。
本稿では,$varepsilon$加法精度で最適な輸送を計算できるスケーラブルな一階最適化法を提案する。
論文 参考訳(メタデータ) (2023-01-30T15:46:39Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。
本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。
次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文 参考訳(メタデータ) (2021-09-26T19:56:45Z) - Hybrid Trilinear and Bilinear Programming for Aligning Partially
Overlapping Point Sets [85.71360365315128]
多くの応用において、部分重なり合う点集合が対応するRPMアルゴリズムに不変であるようなアルゴリズムが必要である。
まず、目的が立方体有界関数であることを示し、次に、三線型および双線型単相変換の凸エンベロープを用いて、その下界を導出する。
次に、変換変数上の分岐のみを効率よく実行するブランチ・アンド・バウンド(BnB)アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-01-19T04:24:23Z) - Accelerating Neural Network Inference by Overflow Aware Quantization [16.673051600608535]
ディープニューラルネットワークの重計算を継承することで、その広範な応用が防げる。
トレーニング可能な適応的不動点表現を設計し,オーバーフローを考慮した量子化手法を提案する。
提案手法により,量子化損失を最小限に抑え,最適化された推論性能を得ることができる。
論文 参考訳(メタデータ) (2020-05-27T11:56:22Z) - LANCE: Efficient Low-Precision Quantized Winograd Convolution for Neural
Networks Based on Graphics Processing Units [6.110973485878557]
我々は,高速畳み込みと量子化の利点を組み合わせた,LANCEと呼ばれる高速な低精度量子化ウィノグラード畳み込みアルゴリズムを提案する。
8ビットの量子化Winograd畳み込みは、精度の低下を伴う完全精度畳み込みよりも最大2.40倍の性能向上を示す。
論文 参考訳(メタデータ) (2020-03-19T09:46:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。