論文の概要: Learning from distinctive candidates to optimize reduced-precision
convolution program on tensor cores
- arxiv url: http://arxiv.org/abs/2202.06819v1
- Date: Fri, 11 Feb 2022 07:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 14:48:09.631080
- Title: Learning from distinctive candidates to optimize reduced-precision
convolution program on tensor cores
- Title(参考訳): テンソルコア上の縮小精度畳み込みプログラムを最適化するための固有候補からの学習
- Authors: Junkyeong Choi, Hyucksung Kwon, Woongkyu Lee, Jungwook Choi and Jieun
Lim
- Abstract要約: 本研究では,畳み込み操作のための縮小精度MMAの自動スケジューリング手法を提案する。
検索時間を短縮した芸術の状況と比較して,MMAの大幅な高速化を示す。
- 参考スコア(独自算出の注目度): 3.7602925677190235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolution is one of the fundamental operations of deep neural networks with
demanding matrix computation. In a graphic processing unit (GPU), Tensor Core
is a specialized matrix processing hardware equipped with reduced-precision
matrix-multiply-accumulate (MMA) instructions to increase throughput. However,
it is challenging to achieve optimal performance since the best scheduling of
MMA instructions varies for different convolution sizes. In particular,
reduced-precision MMA requires many elements grouped as a matrix operand,
seriously limiting data reuse and imposing packing and layout overhead on the
schedule. This work proposes an automatic scheduling method of
reduced-precision MMA for convolution operation. In this method, we devise a
search space that explores the thread tile and warp sizes to increase the data
reuse despite a large matrix operand of reduced-precision MMA. The search space
also includes options of register-level packing and layout optimization to
lesson overhead of handling reduced-precision data. Finally, we propose a
search algorithm to find the best schedule by learning from the distinctive
candidates. This reduced-precision MMA optimization method is evaluated on
convolution operations of popular neural networks to demonstrate substantial
speedup on Tensor Core compared to the state of the arts with shortened search
time.
- Abstract(参考訳): 畳み込みは、行列計算を必要とするディープニューラルネットワークの基本的な操作の1つである。
グラフィック処理ユニット(gpu)において、テンソルコア(tensor core)は、スループットを向上させるために、少ない精度のマトリックス・マルチプライ・アキュムレート(mma)命令を備える、特別なマトリックス処理ハードウェアである。
しかし,mma命令の最適スケジューリングは畳み込みサイズによって異なるため,最適性能を達成することは困難である。
特に、mmaの削減には、行列オペランドとしてグループ化された多くの要素が必要であり、データの再利用を真剣に制限し、スケジュールにパッキングとレイアウトオーバーヘッドを課す。
本研究では,畳み込み動作のための減算mmaの自動スケジューリング手法を提案する。
本手法では,MMAの精度が低い大行列操作であっても,スレッドタイルとワープサイズを探索してデータ再利用量を増加させる探索空間を考案する。
検索スペースにはレジスタレベルのパッキングとレイアウト最適化のオプションが含まれており、縮小精度データの処理のオーバーヘッドを学べる。
最後に,特定候補から学習することで最適なスケジュールを求める探索アルゴリズムを提案する。
この縮小精度mma最適化手法は、ニューラルネットワークの畳み込み操作に基づいて評価され、検索時間の短縮されたアーツの状態と比較してテンソルコアの大幅な高速化を示す。
関連論文リスト
- Sparser Training for On-Device Recommendation Systems [50.74019319100728]
動的スパーストレーニング(DST)に基づく軽量埋め込み手法であるスパースRecを提案する。
これは、重要なベクトルの部分集合をサンプリングすることによって、バックプロパゲーション中の密度勾配を避ける。
論文 参考訳(メタデータ) (2024-11-19T03:48:48Z) - AdaSub: Stochastic Optimization Using Second-Order Information in
Low-Dimensional Subspaces [0.0]
本稿では,低次元部分空間における2階情報に基づく探索方向の探索アルゴリズムであるAdaSubを紹介する。
一階法と比較して、二階法は収束特性が優れているが、繰り返しごとにヘッセン行列を計算する必要があるため、計算コストが過大になる。
予備的な数値結果から、AdaSubは所定の精度に達するのに必要なイテレーションの時間と回数で、一般的なイテレーションを超越していることが示される。
論文 参考訳(メタデータ) (2023-10-30T22:24:23Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Learning the Positions in CountSketch [49.57951567374372]
本稿では,まずランダムなスケッチ行列に乗じてデータを圧縮し,最適化問題を高速に解くスケッチアルゴリズムについて検討する。
本研究では,ゼロでないエントリの位置を最適化する学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-11T07:28:35Z) - Sketchy: Memory-efficient Adaptive Regularization with Frequent
Directions [22.09320263962004]
ディープラーニング(DL)学習タスクにおけるKronecker-factored gradient covariance matrixのスペクトルは、小さなリード固有空間に集中している。
本稿では,行列プレコンディショナを維持するためのメモリと計算要求を低減させる汎用的手法について述べる。
ShampooやAdamと競合する手法で、第2の瞬間を追跡するにはサブ線形メモリしか必要ありません。
論文 参考訳(メタデータ) (2023-02-07T21:50:06Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z) - Look-ups are not (yet) all you need for deep learning inference [0.0]
行列乗算に対する高速な近似は、ニューラルネットワーク推論のコストを劇的に削減する可能性がある。
学習データから高速なハッシュ関数を組み込むことにより,コストのかかる行列乗法をテーブル・ルックアップに置き換えるための近似行列乗法に関する最近の研究が進められている。
本研究は,本研究の深層学習推論設定を対象とする,従来の研究の改善を提案する。
論文 参考訳(メタデータ) (2022-07-12T19:46:23Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Metalearning: Sparse Variable-Structure Automata [0.0]
本研究では,動的スパース符号ベクトルをフライ時に使用する基底ベクトルの数を増やすメタラーニング手法を提案する。
アクター批判アルゴリズムが展開され、必要な精度のレベルに関する特徴の適切な寸法を自動的に選択する。
論文 参考訳(メタデータ) (2021-01-30T21:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。