Fugu-MT 論文翻訳(概要): I/O Lower Bounds for Auto-tuning of Convolutions in CNNs

論文の概要: I/O Lower Bounds for Auto-tuning of Convolutions in CNNs

arxiv url: http://arxiv.org/abs/2012.15667v1
Date: Thu, 31 Dec 2020 15:46:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-17 17:03:55.639022
Title: I/O Lower Bounds for Auto-tuning of Convolutions in CNNs
Title（参考訳）: CNNにおける畳み込みの自動調整のためのI/O下界
Authors: Xiaoyang Zhang, Junmin Xiao, Guangming Tan
Abstract要約: 本研究では,複数のサブ計算からなる合成アルゴリズムの一般i/o下界理論を考案する。我々は,データ再利用を十分に活用することにより,2つの主畳み込みアルゴリズムの近似i/o最適データフロー戦略を設計する。実験結果から,自動チューニング方式によるデータフロー戦略は,cuDNNよりも平均約3.32倍の性能向上を達成できることがわかった。
参考スコア（独自算出の注目度）: 2.571796445061562
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Convolution is the most time-consuming part in the computation of convolutional neural networks (CNNs), which have achieved great successes in numerous applications. Due to the complex data dependency and the increase in the amount of model samples, the convolution suffers from high overhead on data movement (i.e., memory access). This work provides comprehensive analysis and methodologies to minimize the communication for the convolution in CNNs. With an in-depth analysis of the recent I/O complexity theory under the red-blue game model, we develop a general I/O lower bound theory for a composite algorithm which consists of several different sub-computations. Based on the proposed theory, we establish the data movement lower bound results of two representative convolution algorithms in CNNs, namely the direct convolution and Winograd algorithm. Next, derived from I/O lower bound results, we design the near I/O-optimal dataflow strategies for the two main convolution algorithms by fully exploiting the data reuse. Furthermore, in order to push the envelope of performance of the near I/O-optimal dataflow strategies further, an aggressive design of auto-tuning based on I/O lower bounds, is proposed to search an optimal parameter configuration for the direct convolution and Winograd algorithm on GPU, such as the number of threads and the size of shared memory used in each thread block. Finally, experiment evaluation results on the direct convolution and Winograd algorithm show that our dataflow strategies with the auto-tuning approach can achieve about 3.32x performance speedup on average over cuDNN. In addition, compared with TVM, which represents the state-of-the-art technique for auto-tuning, not only our auto-tuning method based on I/O lower bounds can find the optimal parameter configuration faster, but also our solution has higher performance than the optimal solution provided by TVM.
Abstract（参考訳）: 畳み込みは畳み込みニューラルネットワーク(CNN)の計算において最も時間を要する部分であり、多くのアプリケーションで大きな成功を収めている。複雑なデータ依存とモデルサンプルの量の増加により、畳み込みはデータ移動(すなわちメモリアクセス)のオーバーヘッドが高くなる。この研究は、CNNにおける畳み込みの通信を最小化する包括的な分析と方法論を提供する。赤-青ゲームモデルに基づく最近のI/O複雑性理論の詳細な解析により、複数のサブ計算からなる合成アルゴリズムの一般I/O低境界理論を開発する。提案する理論に基づき,cnnにおける2つの代表畳み込みアルゴリズム,すなわち直接畳み込みとウィノグラードアルゴリズムのデータ移動下限結果を定式化する。次に、I/O低境界結果から導かれる2つの主要な畳み込みアルゴリズムに対して、データ再利用を完全に活用して、近いI/O最適データフロー戦略を設計する。さらに、近I/O最適データフロー戦略の性能のエンベロープをさらに推し進めるために、各スレッドブロックで使用されるスレッド数や共有メモリのサイズなど、GPU上の直接畳み込みおよびウィノグラードアルゴリズムの最適パラメータ設定を探索するために、I/O下界に基づく自動チューニングの積極的な設計を提案する。最後に、直接畳み込みとWinogradアルゴリズムの実験結果から、自動チューニングアプローチによるデータフロー戦略は、cuDNN上で平均約3.32倍の性能向上を達成できることが示された。また,自動チューニングの最先端技術であるTVMと比較して,I/O下界に基づく自動チューニング手法は最適パラメータ設定を高速化するだけでなく,TVMが提供する最適解よりも高い性能を有する。

関連論文リスト

Ensemble Quadratic Assignment Network for Graph Matching [52.20001802006391]
グラフマッチングはコンピュータビジョンやパターン認識において一般的に用いられる技法である。最近のデータ駆動型アプローチは、グラフマッチングの精度を著しく改善した。データ駆動手法と従来の手法の利点を組み合わせたグラフニューラルネットワーク(GNN)に基づくアプローチを提案する。
論文参考訳（メタデータ） (2024-03-11T06:34:05Z)
Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。 TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文参考訳（メタデータ） (2023-04-06T12:03:03Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
Distributed Learning and Democratic Embeddings: Polynomial-Time Source Coding Schemes Can Achieve Minimax Lower Bounds for Distributed Gradient Descent under Communication Constraints [46.17631511884969]
我々は、n次元ユークリッド空間においてベクトルを圧縮する問題を考える。数値化器の被覆効率が次元独立であるか、あるいは非常に弱い対数依存であるという意味では、民主主義的および民主的に近いソースコーディングスキームが(ほぼ)最適であることを示す。分散最適化アルゴリズムDGD-DEFを提案する。このアルゴリズムは,提案した符号化戦略を用いて,(ほぼ)定数要素内における最小収束率を実現する。
論文参考訳（メタデータ） (2021-03-13T00:04:11Z)
Normalized Convolution Upsampling for Refined Optical Flow Estimation [23.652615797842085]
正常化された畳み込みのUPsampler (NCUP)は光学流れCNNsの訓練の間にフルレゾリューションの流れを作り出す有効な共同アップサンプリングのアプローチです。提案手法では,アップサンプリングタスクをスパース問題として定式化し,正規化畳み込みニューラルネットワークを用いて解く。 6%のエラー低減とKITTIデータセットのオンパーで、Sintelベンチマークの最新の結果を達成し、パラメータを7.5%削減します。
論文参考訳（メタデータ） (2021-02-13T18:34:03Z)
Analytical Characterization and Design Space Exploration for Optimization of CNNs [10.15406080228806]
ループタイルやループ置換を含むループレベルの最適化は、データ移動を減らすための基本的な変換です。本稿では,マルチコアCPU上でのCNNの最適ループレベル最適化構成を求めるための解析モデルを提案する。
論文参考訳（メタデータ） (2021-01-24T21:36:52Z)
FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。 FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文参考訳（メタデータ） (2020-06-03T05:20:21Z)
FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文参考訳（メタデータ） (2020-05-22T23:07:42Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。