論文の概要: Shisha: Online scheduling of CNN pipelines on heterogeneous
architectures
- arxiv url: http://arxiv.org/abs/2202.11575v1
- Date: Wed, 23 Feb 2022 15:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 19:49:16.326661
- Title: Shisha: Online scheduling of CNN pipelines on heterogeneous
architectures
- Title(参考訳): Shisha: 異種アーキテクチャ上でのCNNパイプラインのオンラインスケジューリング
- Authors: Pirah Noor Soomro, Mustafa Abduljabbar, Jeronimo Castrillon, Miquel
Peric\`as
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は高い計算量、帯域幅、メモリ容量を必要とする。
我々は,チップレットアーキテクチャ上で並列CNNパイプラインを生成・スケジュールするオンラインアプローチであるShishaを提案する。
- 参考スコア(独自算出の注目度): 0.6882042556551611
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Chiplets have become a common methodology in modern chip design. Chiplets
improve yield and enable heterogeneity at the level of cores, memory subsystem
and the interconnect. Convolutional Neural Networks (CNNs) have high
computational, bandwidth and memory capacity requirements owing to the
increasingly large amount of weights. Thus to exploit chiplet-based
architectures, CNNs must be optimized in terms of scheduling and workload
distribution among computing resources. We propose Shisha, an online approach
to generate and schedule parallel CNN pipelines on chiplet architectures.
Shisha targets heterogeneity in compute performance and memory bandwidth and
tunes the pipeline schedule through a fast online exploration technique. We
compare Shisha with Simulated Annealing, Hill Climbing and Pipe-Search. On
average, the convergence time is improved by ~35x in Shisha compared to other
exploration algorithms. Despite the quick exploration, Shisha's solution is
often better than that of other heuristic exploration algorithms.
- Abstract(参考訳): チップレットは現代のチップ設計において一般的な手法となっている。
チップレットは収率を改善し、コア、メモリサブシステム、インターコネクトのレベルでの不均一性を可能にする。
畳み込みニューラルネットワーク(CNN)は、ますます多くの重みがあるため、高い計算量、帯域幅、メモリ容量を必要とする。
したがってchipletベースのアーキテクチャを利用するには、cnnはスケジューリングとコンピューティングリソース間のワークロード分散の観点から最適化されなければならない。
チップレットアーキテクチャ上で並列CNNパイプラインを生成しスケジュールするオンラインアプローチであるShishaを提案する。
Shishaは計算性能とメモリ帯域幅の不均一性を目標とし、高速なオンライン探索技術を通じてパイプラインスケジュールを調整する。
シシャをシミュレートアニーリング,ヒルクライミング,パイプサーチと比較した。
平均収束時間は、他の探索アルゴリズムと比べてシシャの約35倍改善される。
迅速な探索にもかかわらず、シシャの解法は他のヒューリスティックな探索アルゴリズムよりも優れていることが多い。
関連論文リスト
- Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - H2PIPE: High throughput CNN Inference on FPGAs with High-Bandwidth Memory [1.0056445773367833]
畳み込みニューラルネットワーク(CNN)は、大量の並列化可能な計算と頻繁なメモリアクセスを組み合わせる。
この作業は最先端のデータフローアクセラレータを拡張して、HBM(High-Bandwidth Memory)とオンチップストレージの両方を活用する。
最高の先行研究と比較して、ResNet-18、ResNet-50、VGG-16で、少なくとも19.4x、5.1x、10.5xのスピードアップが得られる。
論文 参考訳(メタデータ) (2024-08-17T14:25:32Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - CONetV2: Efficient Auto-Channel Size Optimization for CNNs [35.951376988552695]
本研究は,チャネルサイズのマイクロサーチ空間を調べることにより,計算制約のある環境において効率的な手法を提案する。
チャネルサイズ最適化に際し、ネットワークの異なる接続層内の依存関係を抽出する自動アルゴリズムを設計する。
また、テスト精度と高い相関性を持ち、個々のネットワーク層を解析できる新しいメトリクスも導入する。
論文 参考訳(メタデータ) (2021-10-13T16:17:19Z) - Parareal Neural Networks Emulating a Parallel-in-time Algorithm [1.988145627448243]
ディープニューラルネットワーク(DNN)が深まるにつれて、トレーニング時間が増加する。
本稿では,並列ニューラルネットワークを構築するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T02:03:39Z) - L2PF -- Learning to Prune Faster [57.32153461504626]
本稿では,cnnの冗長フィルタを離散的に学習するマルチタスクのtry-and-learn法と,レイヤの微調整期間の連続的動作を提案する。
ResNet20では、最小精度で圧縮比3.84xを達成しました。
最先端プルーニング法と比較して,GPU時間を1.71倍に短縮した。
論文 参考訳(メタデータ) (2021-01-07T18:13:37Z) - The Case for Strong Scaling in Deep Learning: Training Large 3D CNNs
with Hybrid Parallelism [3.4377970608678314]
大規模3次元畳み込みニューラルネットワークを学習するためのスケーラブルなハイブリッド並列アルゴリズムを提案する。
提案したトレーニングアルゴリズムを,CosmoFlowと3D U-Netの2つの挑戦的な3D CNNを用いて評価した。
論文 参考訳(メタデータ) (2020-07-25T05:06:06Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。