論文の概要: SALSA: Simulated Annealing based Loop-Ordering Scheduler for DNN
Accelerators
- arxiv url: http://arxiv.org/abs/2304.12931v1
- Date: Thu, 20 Apr 2023 12:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-30 07:29:55.809328
- Title: SALSA: Simulated Annealing based Loop-Ordering Scheduler for DNN
Accelerators
- Title(参考訳): SALSA: DNN加速器のアニーリングに基づくループ順序スケジューリング
- Authors: Victor J.B. Jung, Arne Symons, Linyan Mei, Marian Verhelst, Luca
Benini
- Abstract要約: SALSAは高速なデュアルエンジンスケジューラで、偶数マッピングと不均一マッピングの両方で最適な実行スケジュールを生成する。
SALSAは平均で11.9%、エネルギーは7.6%、検索速度は1.7倍、タイムループは24倍である。
- 参考スコア(独自算出の注目度): 17.142688893046422
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To meet the growing need for computational power for DNNs, multiple
specialized hardware architectures have been proposed. Each DNN layer should be
mapped onto the hardware with the most efficient schedule, however, SotA
schedulers struggle to consistently provide optimum schedules in a reasonable
time across all DNN-HW combinations.
This paper proposes SALSA, a fast dual-engine scheduler to generate optimal
execution schedules for both even and uneven mapping. We introduce a new
strategy, combining exhaustive search with simulated annealing to address the
dynamic nature of the loop ordering design space size across layers. SALSA is
extensively benchmarked against two SotA schedulers, LOMA and Timeloop on 5
different DNNs, on average SALSA finds schedules with 11.9% and 7.6% lower
energy while speeding up the search by 1.7x and 24x compared to LOMA and
Timeloop, respectively.
- Abstract(参考訳): DNNの計算能力の増大に対応するため、複数の特殊なハードウェアアーキテクチャが提案されている。
それぞれのDNN層を最も効率的なスケジュールでハードウェアにマッピングする必要があるが、SotAスケジューラはすべてのDNN-HWの組み合わせに対して適切な時間で最適なスケジュールを提供するのに苦労している。
本稿では、偶数および不均一なマッピングの両方に対して最適な実行スケジュールを生成するための高速デュアルエンジンスケジューラであるSALSAを提案する。
提案手法では, 層間設計空間サイズを順序付けするループの動的性質に対処するため, 網羅探索と模擬焼鈍を組み合わせた新しい手法を提案する。
SALSAは5つの異なるDNN上の2つのSotAスケジューラ、LOMAとTimeloopに対して広範囲にベンチマークされ、平均的なSALSAは11.9%と7.6%の低エネルギーのスケジュールを見つけ、検索をそれぞれLOMAとTimeloopと比較して1.7倍と24倍高速化する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Flexible Channel Dimensions for Differentiable Architecture Search [50.33956216274694]
本稿では,効率的な動的チャネル割当アルゴリズムを用いた新しい微分可能なニューラルアーキテクチャ探索法を提案する。
提案するフレームワークは,タスク精度と推論遅延において,従来の手法と等価なDNNアーキテクチャを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-06-13T15:21:38Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid
Precoding [94.40747235081466]
本研究では,ミリ波(mmWave)大規模マルチインプット多重出力(MIMO)システムのためのエンドツーエンドの深層学習に基づくジョイントトランスシーバ設計アルゴリズムを提案する。
我々は受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-22T20:49:02Z) - CoSA: Scheduling by Constrained Optimization for Spatial Accelerators [1.9149970150912705]
我々は、Deep Neural Networks(DNN)アクセラレーターをスケジューリングするための制約最適化に基づくアプローチであるCoSAを提案する。
探索空間をナビゲートするデザイナの手法や反復的な手法に依存する既存のアプローチとは対照的に、CoSAはスケジューリング決定を制約最適化問題として表現している。
CoSA生成スケジュールは、最大2.5xの幾何学平均で最先端のアプローチを大幅に上回ることを実証します。
論文 参考訳(メタデータ) (2021-05-05T07:17:25Z) - DNA: Differentiable Network-Accelerator Co-Search [36.68587348474986]
そこで我々は,一致したネットワークやアクセラレータを自動的に検索する,差別化可能なネットワーク加速器のコサーチフレームワークであるDNAを提案する。
1)DNNアクセラレータの汎用設計スペースと、アルゴリズム探索を可能にするPyTorchなどのDNNフレームワークとの互換性。
実験およびアブレーション研究により、DNAによって生成されたマッチングネットワークと加速器は、常に最先端(SOTA)のDNNや加速器より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-28T05:57:16Z) - Communication Contention Aware Scheduling of Multiple Deep Learning
Training Jobs [17.45154289084637]
我々は、DDLジョブをDAG(Directed Acyclic Graphs)として整理する新しいDDLジョブスケジューリングフレームワークを確立する。
次に、GPU利用のバランスを保ち、各ジョブに割り当てられたGPUを統合するための効率的なアルゴリズム LWF-$kappa$ を提案する。
LWF-$kappa$は、古典的なファーストフィットアルゴリズムよりも最大$1.59タイムで改善できることを示す。
論文 参考訳(メタデータ) (2020-02-24T07:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。