論文の概要: Advancing Direct Convolution using Convolution Slicing Optimization and
ISA Extensions
- arxiv url: http://arxiv.org/abs/2303.04739v1
- Date: Wed, 8 Mar 2023 17:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 13:00:29.722924
- Title: Advancing Direct Convolution using Convolution Slicing Optimization and
ISA Extensions
- Title(参考訳): 畳み込みスライシング最適化とISA拡張を用いた直接畳み込みの改善
- Authors: Victor Ferrari, Rafael Sousa, Marcio Pereira, Jo\~ao P. L. de
Carvalho, Jos\'e Nelson Amaral, Jos\'e Moreira, Guido Araujo
- Abstract要約: 畳み込みは、機械学習モデル推論のために実行しなければならない最も計算集約的な操作の1つである。
本稿では,MLIR/LLVMコード生成ツールチェーンをベースとした直接畳み込みアルゴリズムであるSConvを提案する。
- 参考スコア(独自算出の注目度): 1.2006896500048552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolution is one of the most computationally intensive operations that must
be performed for machine-learning model inference. A traditional approach to
compute convolutions is known as the Im2Col + BLAS method. This paper proposes
SConv: a direct-convolution algorithm based on a MLIR/LLVM code-generation
toolchain that can be integrated into machine-learning compilers . This
algorithm introduces: (a) Convolution Slicing Analysis (CSA) - a
convolution-specific 3D cache-blocking analysis pass that focuses on tile reuse
over the cache hierarchy; (b) Convolution Slicing Optimization (CSO) - a
code-generation pass that uses CSA to generate a tiled direct-convolution
macro-kernel; and (c) Vector-Based Packing (VBP) - an architecture-specific
optimized input-tensor packing solution based on vector-register shift
instructions for convolutions with unitary stride. Experiments conducted on 393
convolutions from full ONNX-MLIR machine-learning models indicate that the
elimination of the Im2Col transformation and the use of fast packing routines
result in a total packing time reduction, on full model inference, of 2.0x -
3.9x on Intel x86 and 3.6x - 7.2x on IBM POWER10. The speed-up over an Im2Col +
BLAS method based on current BLAS implementations for end-to-end
machine-learning model inference is in the range of 9% - 25% for Intel x86 and
10% - 42% for IBM POWER10 architectures. The total convolution speedup for
model inference is 12% - 27% on Intel x86 and 26% - 46% on IBM POWER10. SConv
also outperforms BLAS GEMM, when computing pointwise convolutions, in more than
83% of the 219 tested instances.
- Abstract(参考訳): 畳み込みは、機械学習モデル推論のために実行しなければならない最も計算集約的な操作の1つである。
畳み込みを計算する従来の手法は、Im2Col + BLAS法として知られている。
本稿では,MLIR/LLVMコード生成ツールチェーンをベースとした直接畳み込みアルゴリズムであるSConvを提案する。
このアルゴリズムは
(a)畳み込みスライシング分析(CSA)-畳み込み固有の3Dキャッシュブロッキング解析パスで、キャッシュ階層のタイル再利用に焦点を当てる。
b)畳み込みスライシング最適化(CSO) - CSAを使ってタイル付き直接畳み込みマクロカーネルを生成するコード生成パス。
c)vector-based packing (vbp) - ユニタリストライドを持つ畳み込みに対するベクター・レジスタシフト命令に基づくアーキテクチャ固有の最適化入力テンソルパッキングソリューション。
完全なONNX-MLIR機械学習モデルによる393の畳み込み実験により、Im2Col変換の除去と高速パッキングルーチンの使用により、Intel x86では2.0x3.9x、IBM POWER10では3.6x-7.2xの完全なパッキング時間削減が達成された。
エンド・ツー・エンドの機械学習モデル推論のための現在のBLAS実装に基づくIm2Col + BLASメソッドの高速化は、Intel x86では9%から25%、IBM POWER10アーキテクチャでは10%から42%の範囲である。
モデル推論の総畳み込み速度は、intel x86では12% - 27%、ibm power10では26% - 46%である。
SConvはまた、219のテストインスタンスの83%以上において、ポイントワイドの畳み込みを計算する場合、BLAS GEMMよりも優れている。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - High Performance Im2win and Direct Convolutions using Three Tensor Layouts on SIMD Architectures [26.146937503081876]
本稿では, NHWC, CHWN, CHWN8の3つの新しいデータレイアウトを提案する。
我々は、SIMDマシン上の最適化したim2win畳み込みとPyTorchのim2colベースの畳み込みを比較した。
最適化した im2win と direct の畳み込みは, 機械の最大性能の95% と 94% をそれぞれ達成した。
論文 参考訳(メタデータ) (2024-08-01T04:37:03Z) - ConvBench: A Comprehensive Benchmark for 2D Convolution Primitive Evaluation [0.34952465649465553]
本稿では,畳み込みアルゴリズムの評価と比較のためのプリミティブレベルのベンチマークであるConvBenchを提案する。
1097の現実世界のディープラーニングモデルから派生した9243の畳み込み操作を評価する。
実験の結果、93.6%の畳み込みでIm2col-GEMMよりも速い結果が得られた。
論文 参考訳(メタデータ) (2024-07-15T13:58:24Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Im2win: Memory Efficient Convolution On SIMD Architectures [2.153650601445911]
我々は、im2winと呼ばれる新しいメモリ効率のよいデータ変換アルゴリズムを提案する。
その結果,PyTorchの畳み込み実装と比較して,メモリオーバーヘッドを平均41.6%削減できることがわかった。
論文 参考訳(メタデータ) (2023-06-25T19:21:10Z) - Im2win: An Efficient Convolution Paradigm on GPU [1.9162301033784574]
本稿では、メモリフットプリントの削減だけでなく、連続的なメモリアクセスを提供するim2winと呼ばれる畳み込みベースの畳み込みに関するパラダイムを提案する。
直接畳み込みと、PyTorchのGEMMベースの畳み込みと、DNNベースの畳み込み実装の6ドルを、12の最先端ベンチマークで比較する。
論文 参考訳(メタデータ) (2023-06-25T19:09:56Z) - HEAT: A Highly Efficient and Affordable Training System for
Collaborative Filtering Based Recommendation on CPUs [11.007606356081435]
協調フィルタリング(CF)は推奨のための最も効果的な手法の1つであることが証明されている。
マルチコアCPUにSimpleXを最適化する作業はなく、パフォーマンスが制限されている。
本稿では,現代CPUのマルチレベルキャッシュとマルチスレッド機能を完全に実現した効率的なCFトレーニングシステム(HEAT)を提案する。
論文 参考訳(メタデータ) (2023-04-14T18:07:26Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Dynamic Region-Aware Convolution [85.20099799084026]
本稿では,複数のフィルタを対応する空間領域に自動的に割り当てる動的領域認識畳み込み(DRConv)を提案する。
ImageNet分類において、DRConvベースのShuffleNetV2-0.5xは6.3%の相対的な改善と46M乗算加算レベルで67.1%の最先端性能を達成する。
論文 参考訳(メタデータ) (2020-03-27T05:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。