論文の概要: DNNFusion: Accelerating Deep Neural Networks Execution with Advanced
Operator Fusion
- arxiv url: http://arxiv.org/abs/2108.13342v1
- Date: Mon, 30 Aug 2021 16:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 16:31:00.886853
- Title: DNNFusion: Accelerating Deep Neural Networks Execution with Advanced
Operator Fusion
- Title(参考訳): DNNFusion: 高度な演算子融合によるディープニューラルネットワークの実行の高速化
- Authors: Wei Niu, Jiexiong Guan, Yanzhi Wang, Gagan Agrawal, Bin Ren
- Abstract要約: 本稿では, DNNFusion と呼ばれる, 新規かつ広範囲なループ融合フレームワークを提案する。
DNNFusionは最大8.8倍の融合機会を示し、9.3倍のスピードアップで最先端の4つのDNN実行フレームワークを上回っている。
メモリ要求の削減とスピードアップにより、モバイルデバイス上で多くのターゲットモデルを実行できるようになり、リアルタイムアプリケーションの一部にもなれる。
- 参考スコア(独自算出の注目度): 28.03712082540713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Networks (DNNs) have emerged as the core enabler of many major
applications on mobile devices. To achieve high accuracy, DNN models have
become increasingly deep with hundreds or even thousands of operator layers,
leading to high memory and computational requirements for inference. Operator
fusion (or kernel/layer fusion) is key optimization in many state-of-the-art
DNN execution frameworks, such as TensorFlow, TVM, and MNN. However, these
frameworks usually adopt fusion approaches based on certain patterns that are
too restrictive to cover the diversity of operators and layer connections.
Polyhedral-based loop fusion techniques, on the other hand, work on a low-level
view of the computation without operator-level information, and can also miss
potential fusion opportunities. To address this challenge, this paper proposes
a novel and extensive loop fusion framework called DNNFusion. The basic idea of
this work is to work at an operator view of DNNs, but expand fusion
opportunities by developing a classification of both individual operators and
their combinations. In addition, DNNFusion includes 1) a novel
mathematical-property-based graph rewriting framework to reduce evaluation
costs and facilitate subsequent operator fusion, 2) an integrated fusion plan
generation that leverages the high-level analysis and accurate light-weight
profiling, and 3) additional optimizations during fusion code generation.
DNNFusion is extensively evaluated on 15 DNN models with varied types of tasks,
model sizes, and layer counts. The evaluation results demonstrate that
DNNFusion finds up to 8.8x higher fusion opportunities, outperforms four
state-of-the-art DNN execution frameworks with 9.3x speedup. The memory
requirement reduction and speedups can enable the execution of many of the
target models on mobile devices and even make them part of a real-time
application.
- Abstract(参考訳): Deep Neural Networks (DNN)は、モバイルデバイス上の多くの主要なアプリケーションのコアイネーブラーとして登場した。
高い精度を達成するために、DNNモデルは数百から数千の演算子層でますます深くなり、推論のメモリと計算の要求が高くなった。
オペレータフュージョン(またはカーネル/レイヤフュージョン)は、TensorFlow、TVM、MNNといった最先端のDNN実行フレームワークにおいて重要な最適化である。
しかしながら、これらのフレームワークは通常、演算子と層接続の多様性をカバーできないような特定のパターンに基づいて融合アプローチを採用する。
一方、多面体に基づくループ融合技術は、演算子レベル情報なしで計算の低レベルなビューに取り組んでおり、潜在的な融合機会を逃すこともできる。
この課題に対処するため,本稿ではdnnfusionと呼ばれるループ融合フレームワークを提案する。
この研究の基本的な考え方は、DNNのオペレータビューで作業することであるが、個々のオペレータとそれらの組み合わせの両方の分類を開発することで融合機会を拡張することである。
さらにDNNFusionは,1) 評価コストを削減し,その後の演算子融合を促進するための,新しい数学的プロパティベースのグラフ書き換えフレームワーク,2) 高レベル解析と正確な軽量プロファイリングを活用する統合融合計画生成,3) 融合コード生成時のさらなる最適化を含む。
DNNFusionは、タスクの種類、モデルサイズ、レイヤー数が異なる15のDNNモデルで広く評価されている。
評価の結果、DNNFusionは最大8.8倍の融合機会を示し、9.3倍のスピードアップで最先端の4つのDNN実行フレームワークを上回っている。
メモリ要求の削減とスピードアップにより、モバイルデバイス上で多くのターゲットモデルを実行できるようになり、リアルタイムアプリケーションの一部にすることもできる。
関連論文リスト
- Fusion Matters: Learning Fusion in Deep Click-through Rate Prediction Models [27.477136474888564]
本稿では,接続学習と操作選択の両方を包含して,融合学習を自動化する手法であるOpsFusionを紹介する。
実験は3つの大規模データセット上で実施される。
論文 参考訳(メタデータ) (2024-11-24T06:21:59Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - MGDCF: Distance Learning via Markov Graph Diffusion for Neural
Collaborative Filtering [96.65234340724237]
現状のGNNベースCFモデルとコンテキスト符号化に基づく従来の1層NRLモデルとの等価性を示す。
マルコフグラフ拡散協調フィルタ (MGDCF) を用いて, 最先端のGNNベースCFモデルを一般化する。
論文 参考訳(メタデータ) (2022-04-05T17:24:32Z) - Hardware Approximate Techniques for Deep Neural Network Accelerators: A
Survey [4.856755747052137]
Deep Neural Networks(DNN)は非常に人気があり、機械学習(ML)における様々な認知タスクのパフォーマンスが高い。
近年のDNNの進歩は多くのタスクにおいて人間の精度を超えたが、計算の複雑さのコストがかかる。
本稿では,DNN加速器のハードウェア近似技術に関する包括的調査と解析を行う。
論文 参考訳(メタデータ) (2022-03-16T16:33:13Z) - Designing the Topology of Graph Neural Networks: A Novel Feature Fusion
Perspective [12.363386808994079]
我々は,F$2$GNNと呼ばれる新しい機能融合の観点から,GNNのトポロジを設計することを学ぶ。
本研究では,選択操作と融合操作を含む統合フレームワーク上でのニューラルネットワーク探索手法を提案する。
8つの実世界のデータセットのパフォーマンス向上は、F$2$GNNの有効性を示している。
論文 参考訳(メタデータ) (2021-12-29T13:06:12Z) - Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural
Networks [52.32646357164739]
最適な電力フロー(ACOPF)のソリューションを解決するために、ディープニューラルネットワーク(DNN)を提案します。
提案されたSIDNNは、幅広いOPFスキームと互換性がある。
他のLearning-to-OPFスキームとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-03-27T00:45:23Z) - Efficient Algorithms for Device Placement of DNN Graph Operators [12.871398348743591]
現代の機械学習ワークロードは、実行に非常にコストがかかる複雑な構造を持つ大規模なモデルを使用する。
複雑なモデルを実行するデバイスは、CPUに加えて、ハードウェアアクセラレータとして提供されるドメイン固有のアクセラレータが盛んになるにつれて、ますます異質になりつつある。
近年の研究では、モデルの並列性、すなわちニューラルネットワークの計算グラフを複数のデバイスに分割することで、大きな利益が得られることが示されている。
本稿では,DNN演算子のデバイス配置のコアとなる構造的最適化問題を,特に現代のパイプライン環境において,推論とトレーニングの両方のために同定し,分離する。
論文 参考訳(メタデータ) (2020-06-29T22:45:01Z) - Fusion Recurrent Neural Network [88.5550074808201]
我々は、新しい簡潔かつ有望なRNN-Fusion Recurrent Neural Network (Fusion RNN)を提案する。
Fusion RNNはFusionモジュールとTransportモジュールで構成されている。
本研究では,Fusion RNNのシーケンス特徴抽出能力を評価するために,シーケンスデータ,到着推定時刻(ETA)の代表的なデータマイニングタスクを選択し,Fusion RNNに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-06-07T07:39:49Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。