論文の概要: KAPLA: Pragmatic Representation and Fast Solving of Scalable NN
Accelerator Dataflow
- arxiv url: http://arxiv.org/abs/2306.15676v1
- Date: Fri, 9 Jun 2023 03:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-02 13:15:46.671133
- Title: KAPLA: Pragmatic Representation and Fast Solving of Scalable NN
Accelerator Dataflow
- Title(参考訳): KAPLA: スケーラブルNNアクセラレータデータフローの実用的な表現と高速解法
- Authors: Zhiyao Li (1), Mingyu Gao (1) ((1) Tsinghua University)
- Abstract要約: 汎用的で最適化され、高速なデータフロー解決器KAPLAを構築し、効果的な妥当性チェックと効率推定により設計空間を探索する。
KAPLAは、トレーニングと推論のための結果データフローにおいて、わずか2.2%と7.7%のエネルギーオーバーヘッドしか達成していない。
また、ランダムおよび機械学習ベースのアプローチよりも優れており、より最適化された結果と桁違いに高速な検索スピードアップを実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataflow scheduling decisions are of vital importance to neural network (NN)
accelerators. Recent scalable NN accelerators support a rich set of advanced
dataflow techniques. The problems of comprehensively representing and quickly
finding optimized dataflow schemes thus become significantly more complicated
and challenging. In this work, we first propose comprehensive and pragmatic
dataflow representations for temporal and spatial scheduling on scalable
multi-node NN architectures. An informal hierarchical taxonomy highlights the
tight coupling across different levels of the dataflow space as the major
difficulty for fast design exploration. A set of formal tensor-centric
directives accurately express various inter-layer and intra-layer schemes, and
allow for quickly determining their validity and efficiency. We then build a
generic, optimized, and fast dataflow solver, KAPLA, which makes use of the
pragmatic directives to explore the design space with effective validity check
and efficiency estimation. KAPLA decouples the upper inter-layer level for fast
pruning, and solves the lower intra-layer schemes with a novel bottom-up cost
descending method. KAPLA achieves within only 2.2% and 7.7% energy overheads on
the result dataflow for training and inference, respectively, compared to the
exhaustively searched optimal schemes. It also outperforms random and
machine-learning-based approaches, with more optimized results and orders of
magnitude faster search speedup.
- Abstract(参考訳): データフロースケジューリングの決定は、ニューラルネットワーク(NN)アクセラレーターにとって極めて重要である。
最近のスケーラブルNNアクセラレータは、リッチな高度なデータフロー技術をサポートしている。
最適化されたデータフロースキームを包括的に表現し、迅速に見つけるという問題は、さらに複雑で困難になる。
本研究では,スケーラブルなマルチノードNNアーキテクチャ上での時空間スケジューリングのための包括的で実用的なデータフロー表現を提案する。
非公式な階層的な分類学は、データフロー空間の様々なレベルの密結合を、高速な設計探索の大きな難しさとして強調している。
形式的テンソル中心ディレクティブのセットは、様々な層間および層内スキームを正確に表現し、それらの妥当性と効率を迅速に決定できる。
次に,実用的ディレクティブを用いて効果的な妥当性チェックと効率評価を行い,設計空間を探索する汎用的で最適化された高速データフローソルバkaplaを構築した。
KAPLAは上層間レベルを分離して高速刈り込みを行い、新しいボトムアップコスト降下法により下層間スキームを解く。
KAPLAは、徹底的に探索された最適スキームと比較して、トレーニングのための結果データフローの2.2%と7.7%のエネルギーオーバーヘッドしか達成していない。
また、ランダムおよび機械学習ベースのアプローチを上回り、より最適化された結果と桁違いに高速な検索スピードアップを実現している。
関連論文リスト
- DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - Towards Hyperparameter-Agnostic DNN Training via Dynamical System
Insights [4.513581513983453]
本稿では,ディープニューラルネットワーク(DNN),ECCO-DNNに特化した一階最適化手法を提案する。
本手法は, 最適変数軌道を動的システムとしてモデル化し, 軌道形状に基づいてステップサイズを適応的に選択する離散化アルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-10-21T03:45:13Z) - Accelerating Scalable Graph Neural Network Inference with Node-Adaptive
Propagation [80.227864832092]
グラフニューラルネットワーク(GNN)は、様々なアプリケーションで例外的な効果を発揮している。
大規模グラフの重大化は,GNNによるリアルタイム推論において重要な課題となる。
本稿では,オンライン伝搬フレームワークと2つの新しいノード適応伝搬手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T05:03:00Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - Correlating sparse sensing for large-scale traffic speed estimation: A
Laplacian-enhanced low-rank tensor kriging approach [76.45949280328838]
本稿では,Laplacian enhanced Low-rank tensor (LETC) フレームワークを提案する。
次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-21T07:25:57Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。
GP-UCBに類似した条件下では, 応答が得られないことを示す。
実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T05:03:38Z) - CoSA: Scheduling by Constrained Optimization for Spatial Accelerators [1.9149970150912705]
我々は、Deep Neural Networks(DNN)アクセラレーターをスケジューリングするための制約最適化に基づくアプローチであるCoSAを提案する。
探索空間をナビゲートするデザイナの手法や反復的な手法に依存する既存のアプローチとは対照的に、CoSAはスケジューリング決定を制約最適化問題として表現している。
CoSA生成スケジュールは、最大2.5xの幾何学平均で最先端のアプローチを大幅に上回ることを実証します。
論文 参考訳(メタデータ) (2021-05-05T07:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。