Fugu-MT 論文翻訳(概要): IOS: Inter-Operator Scheduler for CNN Acceleration

論文の概要: IOS: Inter-Operator Scheduler for CNN Acceleration

arxiv url: http://arxiv.org/abs/2011.01302v2
Date: Sat, 6 Mar 2021 16:32:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-30 12:41:50.363555
Title: IOS: Inter-Operator Scheduler for CNN Acceleration
Title（参考訳）: IOS: CNNアクセラレーションのためのオペレータ間スケジューリング
Authors: Yaoyao Ding, Ligeng Zhu, Zhihao Jia, Gennady Pekhimenko and Song Han
Abstract要約: 我々は、複数の演算子の並列実行を自動的にスケジュールするInter-Operator Scheduler (IOS)を提案する。 IOSは最新のCNNベンチマークにおいて、最先端のライブラリ(例えばIOSRT)を1.1から1.5倍上回っている。
参考スコア（独自算出の注目度）: 17.509887924568435
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To accelerate CNN inference, existing deep learning frameworks focus on optimizing intra-operator parallelization. However, a single operator can no longer fully utilize the available parallelism given the rapid advances in high-performance hardware, resulting in a large gap between the peak performance and the real performance. This performance gap is more severe under smaller batch sizes. In this work, we extensively study the parallelism between operators and propose Inter-Operator Scheduler (IOS) to automatically schedule multiple operators' parallel execution through a novel dynamic programming algorithm. IOS consistently outperforms state-of-the-art libraries (e.g., TensorRT) by 1.1 to 1.5x on modern CNN benchmarks. The code to reproduce each experiment is available at: https://github.com/mit-han-lab/inter-operator-scheduler.
Abstract（参考訳）: cnn推論を加速するために、既存のディープラーニングフレームワークはオペレータ内並列化の最適化にフォーカスしている。しかし、高速ハードウェアの急速な進歩により、単一演算子では利用可能な並列性を完全に利用できなくなり、ピーク性能と実際の性能の間に大きなギャップが生じる。このパフォーマンスギャップは、より小さなバッチサイズよりも深刻です。本研究では,演算子間の並列性を調査し,複数のオペレータの並列実行を自動的にスケジュールするinter-operator scheduler (ios)を提案する。 IOSは最新のCNNベンチマークで最新のライブラリ(例えばTensorRT)を1.1から1.5倍に改善している。各実験を再現するコードは、https://github.com/mit-han-lab/inter-operator-scheduler.com/で入手できる。

関連論文リスト

A projection-based framework for gradient-free and parallel learning [50.96641619247761]
私たちはこのパラダイムを実現するJAXベースのソフトウェアフレームワークであるPJAXを紹介します。 PJAXは基本演算に対する射影演算子を構成し、実現可能性問題に対する解演算子を自動的に導出する。各種アーキテクチャ(MLP、CNN、RNN)を標準ベンチマークでPJAXを用いてトレーニングし、その汎用性を実証する。
論文参考訳（メタデータ） (2025-06-06T08:44:56Z)
RMP-SAM: Towards Real-Time Multi-Purpose Segment Anything [117.02741621686677]
この研究はリアルタイム多目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を探索する。インタラクティブセグメンテーション、パノスコープセグメンテーション、ビデオインスタンスセグメンテーションの3つの基本的なサブタスクを含んでいる。動的畳み込みに基づく新しい動的畳み込み手法であるReal-Time Multi-Purpose SAM(RMP-SAM)を提案する。効率的なエンコーダと、プロンプト駆動のデコードを実行するための効率的なデカップリングアダプタを含む。
論文参考訳（メタデータ） (2024-01-18T18:59:30Z)
Opara: Exploiting Operator Parallelism for Expediting DNN Inference on GPUs [20.506357657234755]
emphOparaは、GPU上のDeep Neural Network(DNN)推論を高速化する、リソースと干渉対応のスケジューリングフレームワークである。我々はPyTorchをベースとしたemphOparaのプロトタイプを,emphnon-intrusiveな方法で実装し,オープンソース化する。代表的DNNとTransformerベースのモデルによるプロトタイプ実験は、emphoparaがPyTorchのデフォルトシーケンシャルな textttCUDA Graph よりも優れていることを示した。
論文参考訳（メタデータ） (2023-12-16T06:48:11Z)
Automatic Task Parallelization of Dataflow Graphs in ML/DL models [0.0]
本稿では,MLデータフローグラフに固有の並列パスを利用する線形クラスタリング手法を提案する。我々はONNX形式で入力MLモデルから可読かつ実行可能な並列Pytorch+Pythonコードを生成する。いくつかのMLグラフの予備結果は、シリアル実行よりも1.9$times$スピードアップである。
論文参考訳（メタデータ） (2023-08-22T04:54:30Z)
Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。理論的には、再発と注意の関係を導出する。言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文参考訳（メタデータ） (2023-07-17T16:40:01Z)
Parallel Algorithms Align with Neural Execution [7.535219325248997]
しかし並列アルゴリズムは計算能力を最大限に活用できるため、実行すべきレイヤは少ない。このことは、CLRSフレームワーク上のシーケンシャルなコンポーネントに対して、検索、ソート、および強力な接続されたコンポーネントの並列実装を比較する際に観察されるように、トレーニング時間を劇的に短縮します。
論文参考訳（メタデータ） (2023-07-08T21:28:20Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。 CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文参考訳（メタデータ） (2022-10-13T16:03:53Z)
Distributed Deep Learning Inference Acceleration using Seamless Collaboration in Edge Computing [93.67044879636093]
本稿では,コラボレーティブエッジコンピューティングにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。本研究では,第2エッジサーバ(ES)上のサブタスクの重なり合うゾーンをホストES上で実行し,HALPと命名した新しいタスク協調方式を設計する。実験結果から,GTX 1080TIとJETSON AGX Xavierでは,単一のタスクに対して1.7-2.0x,バッチ毎に1.7-1.8x,バッチ毎に1.7-1.8x,VGG-16では1.7-2.0xのCNN推論を高速化できることがわかった。
論文参考訳（メタデータ） (2022-07-22T18:39:09Z)
AEGNN: Asynchronous Event-based Graph Neural Networks [54.528926463775946]
イベントベースのグラフニューラルネットワークは、標準のGNNを一般化して、イベントを"進化的"時間グラフとして処理する。 AEGNNは同期入力で容易に訓練でき、テスト時に効率的な「非同期」ネットワークに変換できる。
論文参考訳（メタデータ） (2022-03-31T16:21:12Z)
Dynamic Multi-Branch Layers for On-Device Neural Machine Translation [53.637479651600586]
動的マルチブランチ層を用いたオンデバイスニューラルマシン翻訳(NMT)システムの性能向上を提案する。具体的には、トレーニングと推論中に1つの分岐のみを活性化した層方向動的マルチブランチネットワークを設計する。ほぼ同じ計算コストで、WMT14英語-ドイツ語翻訳タスクでは最大1.7 BLEUポイント、WMT20中国語-英語翻訳タスクでは1.8 BLEUポイントの改善を実現します。
論文参考訳（メタデータ） (2021-05-14T07:32:53Z)
Parallel, Self Organizing, Consensus Neural Networks [0.2578242050187029]
新しいニューラルネットワークアーキテクチャ(PSCNN)は、そのようなネットワークの性能と速度を改善するために開発された。 PSCNNは全症例において優れた成績を示した。
論文参考訳（メタデータ） (2020-07-30T21:02:10Z)
Efficient Algorithms for Device Placement of DNN Graph Operators [12.871398348743591]
現代の機械学習ワークロードは、実行に非常にコストがかかる複雑な構造を持つ大規模なモデルを使用する。複雑なモデルを実行するデバイスは、CPUに加えて、ハードウェアアクセラレータとして提供されるドメイン固有のアクセラレータが盛んになるにつれて、ますます異質になりつつある。近年の研究では、モデルの並列性、すなわちニューラルネットワークの計算グラフを複数のデバイスに分割することで、大きな利益が得られることが示されている。本稿では,DNN演算子のデバイス配置のコアとなる構造的最適化問題を,特に現代のパイプライン環境において,推論とトレーニングの両方のために同定し,分離する。
論文参考訳（メタデータ） (2020-06-29T22:45:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。