論文の概要: High Performance Im2win and Direct Convolutions using Three Tensor Layouts on SIMD Architectures
- arxiv url: http://arxiv.org/abs/2408.00278v1
- Date: Thu, 1 Aug 2024 04:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 21:45:24.455688
- Title: High Performance Im2win and Direct Convolutions using Three Tensor Layouts on SIMD Architectures
- Title(参考訳): SIMDアーキテクチャ上の3つのテンソルレイアウトを用いた高性能Im2winと直接畳み込み
- Authors: Xiang Fu, Xinpeng Zhang, Jixiang Ma, Peng Zhao, Shuai Lu, Xu T. Liu,
- Abstract要約: 本稿では, NHWC, CHWN, CHWN8の3つの新しいデータレイアウトを提案する。
我々は、SIMDマシン上の最適化したim2win畳み込みとPyTorchのim2colベースの畳み込みを比較した。
最適化した im2win と direct の畳み込みは, 機械の最大性能の95% と 94% をそれぞれ達成した。
- 参考スコア(独自算出の注目度): 26.146937503081876
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Convolution is the core component within deep neural networks and it is computationally intensive and time consuming. Tensor data layouts significantly impact convolution operations in terms of memory access and computational efficiency. Yet, there is still a lack of comprehensive performance characterization on data layouts on SIMD architectures concerning convolution methods. This paper proposes three novel data layouts for im2win convolution: NHWC, CHWN, and CHWN8, and introduces a set of general optimization techniques for both direct and im2win convolutions. We compare the optimized im2win convolution with the direct convolution and PyTorch's im2col-based convolution across the aforementioned layouts on SIMD machines. The experiments demonstrated that the im2win convolution with the new NHWC layout achieved up to 355% performance speedup over NCHW layout. Our optimizations also significantly improve the performance of both im2win and direct convolutions. Our optimized im2win and direct convolutions achieved up to 95% and 94% of machine's theoretical peak performance, respectively.
- Abstract(参考訳): 畳み込みはディープニューラルネットワークのコアコンポーネントであり、計算集約的で時間を要する。
テンソルデータレイアウトは、メモリアクセスと計算効率の点で、畳み込み操作に大きな影響を及ぼす。
しかし、畳み込みメソッドに関するSIMDアーキテクチャ上のデータレイアウトに関する包括的なパフォーマンス特性は、いまだに欠如している。
本稿では, NHWC, CHWN, CHWN8の3つの新しいデータレイアウトを提案する。
我々は、SIMDマシン上の最適化したim2win畳み込みとPyTorchのim2colベースの畳み込みを比較した。
実験の結果、新しいNHWCレイアウトとのim2winの畳み込みは、NCHWレイアウトよりも最大355%の性能向上を達成した。
また,Im2winと直接畳み込みの性能も大幅に向上した。
最適化した im2win と direct の畳み込みは, 機械の最大性能の95% と 94% をそれぞれ達成した。
関連論文リスト
- ConvBench: A Comprehensive Benchmark for 2D Convolution Primitive Evaluation [0.34952465649465553]
本稿では,畳み込みアルゴリズムの評価と比較のためのプリミティブレベルのベンチマークであるConvBenchを提案する。
1097の現実世界のディープラーニングモデルから派生した9243の畳み込み操作を評価する。
実験の結果、93.6%の畳み込みでIm2col-GEMMよりも速い結果が得られた。
論文 参考訳(メタデータ) (2024-07-15T13:58:24Z) - Im2win: Memory Efficient Convolution On SIMD Architectures [2.153650601445911]
我々は、im2winと呼ばれる新しいメモリ効率のよいデータ変換アルゴリズムを提案する。
その結果,PyTorchの畳み込み実装と比較して,メモリオーバーヘッドを平均41.6%削減できることがわかった。
論文 参考訳(メタデータ) (2023-06-25T19:21:10Z) - Im2win: An Efficient Convolution Paradigm on GPU [1.9162301033784574]
本稿では、メモリフットプリントの削減だけでなく、連続的なメモリアクセスを提供するim2winと呼ばれる畳み込みベースの畳み込みに関するパラダイムを提案する。
直接畳み込みと、PyTorchのGEMMベースの畳み込みと、DNNベースの畳み込み実装の6ドルを、12の最先端ベンチマークで比較する。
論文 参考訳(メタデータ) (2023-06-25T19:09:56Z) - Advancing Direct Convolution using Convolution Slicing Optimization and
ISA Extensions [1.2006896500048552]
畳み込みは、機械学習モデル推論のために実行しなければならない最も計算集約的な操作の1つである。
本稿では,MLIR/LLVMコード生成ツールチェーンをベースとした直接畳み込みアルゴリズムであるSConvを提案する。
論文 参考訳(メタデータ) (2023-03-08T17:23:39Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - Involution: Inverting the Inherence of Convolution for Visual
Recognition [72.88582255910835]
本稿では,畳み込みの原理を逆転させることにより,深層ニューラルネットワークの新たな原子操作を提案する。
提案する畳み込み演算子は、視覚認識のための新しい世代のニューラルネットワークを構築するための基本ブロックとして利用することができる。
当社のInvolutionベースのモデルは、ResNet-50を使用した畳み込みベースラインのパフォーマンスを最大1.6%の精度、2.5%と2.4%のバウンディングボックスAP、4.7%は絶対にIoUを意味します。
論文 参考訳(メタデータ) (2021-03-10T18:40:46Z) - I/O Lower Bounds for Auto-tuning of Convolutions in CNNs [2.571796445061562]
本研究では,複数のサブ計算からなる合成アルゴリズムの一般i/o下界理論を考案する。
我々は,データ再利用を十分に活用することにより,2つの主畳み込みアルゴリズムの近似i/o最適データフロー戦略を設計する。
実験結果から,自動チューニング方式によるデータフロー戦略は,cuDNNよりも平均約3.32倍の性能向上を達成できることがわかった。
論文 参考訳(メタデータ) (2020-12-31T15:46:01Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z) - Training Binary Neural Networks with Real-to-Binary Convolutions [52.91164959767517]
完全精度のネットワークのうち、数パーセント以内にバイナリネットワークをトレーニングする方法を示します。
我々は、最先端の精度をすでに達成している強力なベースラインを構築する方法を示す。
すべての改善をまとめると、提案したモデルは、ImageNet上で5%以上のトップ1精度で、現在の最先端の技術を上回ります。
論文 参考訳(メタデータ) (2020-03-25T17:54:38Z) - XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。
空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。
XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文 参考訳(メタデータ) (2020-02-27T11:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。