論文の概要: Im2win: Memory Efficient Convolution On SIMD Architectures
- arxiv url: http://arxiv.org/abs/2306.14320v1
- Date: Sun, 25 Jun 2023 19:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:33:56.269917
- Title: Im2win: Memory Efficient Convolution On SIMD Architectures
- Title(参考訳): Im2win:SIMDアーキテクチャ上でのメモリ効率の良い畳み込み
- Authors: Shuai Lu and Jun Chu and Xu T. Liu
- Abstract要約: 我々は、im2winと呼ばれる新しいメモリ効率のよいデータ変換アルゴリズムを提案する。
その結果,PyTorchの畳み込み実装と比較して,メモリオーバーヘッドを平均41.6%削減できることがわかった。
- 参考スコア(独自算出の注目度): 2.153650601445911
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Convolution is the most expensive operation among neural network operations,
thus its performance is critical to the overall performance of neural networks.
Commonly used convolution approaches, including general matrix multiplication
(GEMM)-based convolution and direct convolution, rely on im2col for data
transformation or do not use data transformation at all, respectively. However,
the im2col data transformation can lead to at least 2$\times$ memory footprint
compared to not using data transformation at all, thus limiting the size of
neural network models running on memory-limited systems. Meanwhile, not using
data transformation usually performs poorly due to nonconsecutive memory access
although it consumes less memory. To solve those problems, we propose a new
memory-efficient data transformation algorithm, called im2win. This algorithm
refactorizes a row of square or rectangle dot product windows of the input
image and flattens unique elements within these windows into a row in the
output tensor, which enables consecutive memory access and data reuse, and thus
greatly reduces the memory overhead. Furthermore, we propose a high-performance
im2win-based convolution algorithm with various optimizations, including
vectorization, loop reordering, etc. Our experimental results show that our
algorithm reduces the memory overhead by average to 41.6% compared to the
PyTorch's convolution implementation based on im2col, and achieves average to
3.6$\times$ and 5.3$\times$ speedup in performance compared to the im2col-based
convolution and not using data transformation, respectively.
- Abstract(参考訳): 畳み込みはニューラルネットワーク操作の中で最も高価な操作であるため、その性能はニューラルネットワーク全体のパフォーマンスに不可欠である。
一般行列乗法(GEMM)ベースの畳み込みと直接畳み込みを含む一般的な畳み込みアプローチは、それぞれデータ変換にim2colに依存するか、あるいはデータ変換を全く使わない。
しかし、im2colのデータ変換は、データ変換を全く使わずに、少なくとも2$\times$メモリフットプリントにつながる可能性があるため、メモリ制限されたシステムで動作するニューラルネットワークモデルのサイズが制限される。
一方、データトランスフォーメーションを使用しない場合、メモリ消費が少ないにもかかわらず、非連続的なメモリアクセスのためにパフォーマンスが悪い。
これらの問題を解決するために,Im2winと呼ばれるメモリ効率の高いデータ変換アルゴリズムを提案する。
このアルゴリズムは入力画像の正方形または矩形ドット製品ウィンドウの列をリファクタリングし、これらのウィンドウ内のユニークな要素を出力テンソルの行にフラット化することで、連続したメモリアクセスとデータの再利用を可能にし、メモリオーバーヘッドを大幅に削減する。
さらに,ベクトル化やループ再順序付けなど,様々な最適化を施した高性能im2winに基づく畳み込みアルゴリズムを提案する。
実験の結果,im2colをベースとしたPyTorchの畳み込み実装と比較してメモリオーバーヘッドを平均41.6%削減し,im2colをベースとした畳み込みよりも平均3.6$\times$と5.3$\times$のパフォーマンス向上を実現した。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - High Performance Im2win and Direct Convolutions using Three Tensor Layouts on SIMD Architectures [26.146937503081876]
本稿では, NHWC, CHWN, CHWN8の3つの新しいデータレイアウトを提案する。
我々は、SIMDマシン上の最適化したim2win畳み込みとPyTorchのim2colベースの畳み込みを比較した。
最適化した im2win と direct の畳み込みは, 機械の最大性能の95% と 94% をそれぞれ達成した。
論文 参考訳(メタデータ) (2024-08-01T04:37:03Z) - Decreasing the Computing Time of Bayesian Optimization using
Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。
BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。
すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文 参考訳(メタデータ) (2023-09-08T14:05:56Z) - Eva: A General Vectorized Approximation Framework for Second-order
Optimization [16.647611352181574]
メモリ効率と時間効率の2次アルゴリズムであるEvaを2つの新しい手法で提案する。
我々はシャーマン・モリソンの公式を使用する逆計算を明示的に行わずに効率的な更新式を導出する。
実験によると、Evaは1次SGDと2次アルゴリズムと比較して、エンドツーエンドのトレーニング時間を2.05倍と2.42倍に短縮する。
論文 参考訳(メタデータ) (2023-08-04T03:51:38Z) - Im2win: An Efficient Convolution Paradigm on GPU [1.9162301033784574]
本稿では、メモリフットプリントの削減だけでなく、連続的なメモリアクセスを提供するim2winと呼ばれる畳み込みベースの畳み込みに関するパラダイムを提案する。
直接畳み込みと、PyTorchのGEMMベースの畳み込みと、DNNベースの畳み込み実装の6ドルを、12の最先端ベンチマークで比較する。
論文 参考訳(メタデータ) (2023-06-25T19:09:56Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Kernel-Segregated Transpose Convolution Operation [2.9822184411723645]
転位畳み込み層は、各行と列の各要素にゼロを加算するため、特徴写像のサイズが大きくなるため、計算集約的である。
これらの問題を解決するために,効率的な変換畳み込み実装のためのアルゴリズムレベルの最適化手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T10:42:49Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。