論文の概要: IOS: Inter-Operator Scheduler for CNN Acceleration
- arxiv url: http://arxiv.org/abs/2011.01302v2
- Date: Sat, 6 Mar 2021 16:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:41:50.363555
- Title: IOS: Inter-Operator Scheduler for CNN Acceleration
- Title(参考訳): IOS: CNNアクセラレーションのためのオペレータ間スケジューリング
- Authors: Yaoyao Ding, Ligeng Zhu, Zhihao Jia, Gennady Pekhimenko and Song Han
- Abstract要約: 我々は、複数の演算子の並列実行を自動的にスケジュールするInter-Operator Scheduler (IOS)を提案する。
IOSは最新のCNNベンチマークにおいて、最先端のライブラリ(例えばIOSRT)を1.1から1.5倍上回っている。
- 参考スコア(独自算出の注目度): 17.509887924568435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To accelerate CNN inference, existing deep learning frameworks focus on
optimizing intra-operator parallelization. However, a single operator can no
longer fully utilize the available parallelism given the rapid advances in
high-performance hardware, resulting in a large gap between the peak
performance and the real performance. This performance gap is more severe under
smaller batch sizes. In this work, we extensively study the parallelism between
operators and propose Inter-Operator Scheduler (IOS) to automatically schedule
multiple operators' parallel execution through a novel dynamic programming
algorithm. IOS consistently outperforms state-of-the-art libraries (e.g.,
TensorRT) by 1.1 to 1.5x on modern CNN benchmarks. The code to reproduce each
experiment is available at:
https://github.com/mit-han-lab/inter-operator-scheduler.
- Abstract(参考訳): cnn推論を加速するために、既存のディープラーニングフレームワークはオペレータ内並列化の最適化にフォーカスしている。
しかし、高速ハードウェアの急速な進歩により、単一演算子では利用可能な並列性を完全に利用できなくなり、ピーク性能と実際の性能の間に大きなギャップが生じる。
このパフォーマンスギャップは、より小さなバッチサイズよりも深刻です。
本研究では,演算子間の並列性を調査し,複数のオペレータの並列実行を自動的にスケジュールするinter-operator scheduler (ios)を提案する。
IOSは最新のCNNベンチマークで最新のライブラリ(例えばTensorRT)を1.1から1.5倍に改善している。
各実験を再現するコードは、https://github.com/mit-han-lab/inter-operator-scheduler.com/で入手できる。
関連論文リスト
- Opara: Exploiting Operator Parallelism for Expediting DNN Inference on GPUs [20.506357657234755]
emphOparaは、GPU上のDeep Neural Network(DNN)推論を高速化する、リソースと干渉対応のスケジューリングフレームワークである。
我々はPyTorchをベースとしたemphOparaのプロトタイプを,emphnon-intrusiveな方法で実装し,オープンソース化する。
代表的DNNとTransformerベースのモデルによるプロトタイプ実験は、emphoparaがPyTorchのデフォルトシーケンシャルな textttCUDA Graph よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-16T06:48:11Z) - Automatic Task Parallelization of Dataflow Graphs in ML/DL models [0.0]
本稿では,MLデータフローグラフに固有の並列パスを利用する線形クラスタリング手法を提案する。
我々はONNX形式で入力MLモデルから可読かつ実行可能な並列Pytorch+Pythonコードを生成する。
いくつかのMLグラフの予備結果は、シリアル実行よりも1.9$times$スピードアップである。
論文 参考訳(メタデータ) (2023-08-22T04:54:30Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - Parallel Algorithms Align with Neural Execution [7.535219325248997]
しかし並列アルゴリズムは計算能力を最大限に活用できるため、実行すべきレイヤは少ない。
このことは、CLRSフレームワーク上のシーケンシャルなコンポーネントに対して、検索、ソート、および強力な接続されたコンポーネントの並列実装を比較する際に観察されるように、トレーニング時間を劇的に短縮します。
論文 参考訳(メタデータ) (2023-07-08T21:28:20Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - Distributed Deep Learning Inference Acceleration using Seamless
Collaboration in Edge Computing [93.67044879636093]
本稿では,コラボレーティブエッジコンピューティングにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
本研究では,第2エッジサーバ(ES)上のサブタスクの重なり合うゾーンをホストES上で実行し,HALPと命名した新しいタスク協調方式を設計する。
実験結果から,GTX 1080TIとJETSON AGX Xavierでは,単一のタスクに対して1.7-2.0x,バッチ毎に1.7-1.8x,バッチ毎に1.7-1.8x,VGG-16では1.7-2.0xのCNN推論を高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-22T18:39:09Z) - AEGNN: Asynchronous Event-based Graph Neural Networks [54.528926463775946]
イベントベースのグラフニューラルネットワークは、標準のGNNを一般化して、イベントを"進化的"時間グラフとして処理する。
AEGNNは同期入力で容易に訓練でき、テスト時に効率的な「非同期」ネットワークに変換できる。
論文 参考訳(メタデータ) (2022-03-31T16:21:12Z) - Dynamic Multi-Branch Layers for On-Device Neural Machine Translation [53.637479651600586]
動的マルチブランチ層を用いたオンデバイスニューラルマシン翻訳(NMT)システムの性能向上を提案する。
具体的には、トレーニングと推論中に1つの分岐のみを活性化した層方向動的マルチブランチネットワークを設計する。
ほぼ同じ計算コストで、WMT14英語-ドイツ語翻訳タスクでは最大1.7 BLEUポイント、WMT20中国語-英語翻訳タスクでは1.8 BLEUポイントの改善を実現します。
論文 参考訳(メタデータ) (2021-05-14T07:32:53Z) - Parallel, Self Organizing, Consensus Neural Networks [0.2578242050187029]
新しいニューラルネットワークアーキテクチャ(PSCNN)は、そのようなネットワークの性能と速度を改善するために開発された。
PSCNNは全症例において優れた成績を示した。
論文 参考訳(メタデータ) (2020-07-30T21:02:10Z) - Efficient Algorithms for Device Placement of DNN Graph Operators [12.871398348743591]
現代の機械学習ワークロードは、実行に非常にコストがかかる複雑な構造を持つ大規模なモデルを使用する。
複雑なモデルを実行するデバイスは、CPUに加えて、ハードウェアアクセラレータとして提供されるドメイン固有のアクセラレータが盛んになるにつれて、ますます異質になりつつある。
近年の研究では、モデルの並列性、すなわちニューラルネットワークの計算グラフを複数のデバイスに分割することで、大きな利益が得られることが示されている。
本稿では,DNN演算子のデバイス配置のコアとなる構造的最適化問題を,特に現代のパイプライン環境において,推論とトレーニングの両方のために同定し,分離する。
論文 参考訳(メタデータ) (2020-06-29T22:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。