論文の概要: Combined Scheduling, Memory Allocation and Tensor Replacement for
Minimizing Off-Chip Data Accesses of DNN Accelerators
- arxiv url: http://arxiv.org/abs/2311.18246v1
- Date: Thu, 30 Nov 2023 04:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 17:50:33.542913
- Title: Combined Scheduling, Memory Allocation and Tensor Replacement for
Minimizing Off-Chip Data Accesses of DNN Accelerators
- Title(参考訳): DNN加速器のオフチップデータアクセス最小化のためのスケジューリング、メモリ割り当て、テンソル置換の組み合わせ
- Authors: Yi Li, Aarti Gupta, Sharad Malik
- Abstract要約: 本稿では,Deep Neural Networks を専用ハードウェアアクセラレータにマッピングする COSMA という最適化フレームワークを提案する。
COSMAは、データアクセスを最小化する最適な演算子スケジュール、メモリ割り当て、テンソル置換を見つける。
既製のICPソルバを用いてCOSMAは,異なるアプリケーションに対して,多種多様な最先端DNNに対して,数秒で最適解が得られることを示した。
- 参考スコア(独自算出の注目度): 6.393909466547065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Specialized hardware accelerators have been extensively used for Deep Neural
Networks (DNNs) to provide power/performance benefits. These accelerators
contain specialized hardware that supports DNN operators, and scratchpad memory
for storing the tensor operands. Often, the size of the scratchpad is
insufficient to store all the tensors needed for the computation, and
additional data accesses are needed to move tensors back and forth from host
memory during the computation with significant power/performance overhead. The
volume of these additional data accesses depends on the operator schedule, and
memory allocation (specific locations selected for the tensors in the
scratchpad). We propose an optimization framework, named COSMA, for mapping
DNNs to an accelerator that finds the optimal operator schedule, memory
allocation and tensor replacement that minimizes the additional data accesses.
COSMA provides an Integer Linear Programming (ILP) formulation to generate the
optimal solution for mapping a DNN to the accelerator for a given scratchpad
size. We demonstrate that, using an off-the-shelf ILP solver, COSMA obtains the
optimal solution in seconds for a wide-range of state-of-the-art DNNs for
different applications. Further, it out-performs existing methods by reducing
on average 84% of the non-compulsory data accesses. We further propose a
divide-and-conquer heuristic to scale up to certain complex DNNs generated by
Neural Architecture Search, and this heuristic solution reduces on average 85%
data accesses compared with other works.
- Abstract(参考訳): 特殊なハードウェアアクセラレータは、電力/性能の利点を提供するためにディープニューラルネットワーク(dnn)に広く使われている。
これらのアクセラレータには、DNN演算子をサポートする特別なハードウェアと、テンソルオペランドを格納するためのスクラッチパッドメモリが含まれている。
多くの場合、スクラッチパッドのサイズは計算に必要なテンソルを全て格納するには不十分であり、計算中にテンソルをホストメモリから前後に移動させるには追加のデータアクセスが必要である。
これらの追加データアクセスのボリュームは、オペレータのスケジュールとメモリ割り当て(スクラッチパッド内のテンソルに選択された特定の場所)に依存する。
我々は、DNNを最適な演算子スケジュール、メモリ割り当て、追加データアクセスを最小限に抑えるテンソル置換を見つけるアクセラレータにマッピングするための最適化フレームワークCOSMAを提案する。
COSMAは、与えられたスクラッチパッドサイズでDNNをアクセラレータにマッピングする最適なソリューションを生成するために、ILP(Integer Linear Programming)の定式化を提供する。
既製のICPソルバを用いてCOSMAは,異なるアプリケーションに対して,多種多様な最先端DNNに対して,数秒で最適解が得られることを示した。
さらに、非強制データアクセスの84%を削減し、既存の手法を上回ります。
さらに、ニューラルネットワークサーチによって生成された複雑なDNNにスケールアップする分割とコンカリストのヒューリスティックを提案し、このヒューリスティックなソリューションは、他の研究と比べて平均85%のデータアクセスを削減します。
関連論文リスト
- NeuraChip: Accelerating GNN Computations with a Hash-based Decoupled Spatial Accelerator [3.926150707772004]
我々はGustavsonのアルゴリズムに基づく新しいGNN空間加速器であるNeuraChipを紹介する。
NeuraChipはスパース行列乗算における乗算と加算計算を分離する。
我々はまた、包括的なパフォーマンス解析のためのオープンソース、サイクル精度、マルチスレッドモジュールシミュレータであるNeuraSimを提示する。
論文 参考訳(メタデータ) (2024-04-23T20:51:09Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on
Edge [1.8293684411977293]
エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。
エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
論文 参考訳(メタデータ) (2023-06-10T17:25:58Z) - ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural
Network Quantization [31.494669469303954]
ハードウェアオーバーヘッドの少ない低ビット量子化を実現するため,ANTと呼ばれる固定長適応型数値型を提案する。
我々の設計は、最先端の量子化加速器よりも2.8$times$スピードアップと2.5$times$エネルギー効率の改善をもたらす。
論文 参考訳(メタデータ) (2022-08-30T14:12:49Z) - A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate
Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。
本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。
我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T15:02:11Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - CoSA: Scheduling by Constrained Optimization for Spatial Accelerators [1.9149970150912705]
我々は、Deep Neural Networks(DNN)アクセラレーターをスケジューリングするための制約最適化に基づくアプローチであるCoSAを提案する。
探索空間をナビゲートするデザイナの手法や反復的な手法に依存する既存のアプローチとは対照的に、CoSAはスケジューリング決定を制約最適化問題として表現している。
CoSA生成スケジュールは、最大2.5xの幾何学平均で最先端のアプローチを大幅に上回ることを実証します。
論文 参考訳(メタデータ) (2021-05-05T07:17:25Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。