論文の概要: Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware
Multifaceted Optimizations
- arxiv url: http://arxiv.org/abs/2008.04567v1
- Date: Tue, 11 Aug 2020 07:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:30:23.368205
- Title: Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware
Multifaceted Optimizations
- Title(参考訳): Woodpecker-DL:ハードウェア対応多面最適化によるディープニューラルネットワークの高速化
- Authors: Yongchao Liu, Yue Jin, Yong Chen, Teng Teng, Hang Ou, Rui Zhao, Yao
Zhang
- Abstract要約: Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。
WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。
最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
- 参考スコア(独自算出の注目度): 15.659251804042748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accelerating deep model training and inference is crucial in practice.
Existing deep learning frameworks usually concentrate on optimizing training
speed and pay fewer attentions to inference-specific optimizations. Actually,
model inference differs from training in terms of computation, e.g. parameters
are refreshed each gradient update step during training, but kept invariant
during inference. These special characteristics of model inference open new
opportunities for its optimization. In this paper, we propose a hardware-aware
optimization framework, namely Woodpecker-DL (WPK), to accelerate inference by
taking advantage of multiple joint optimizations from the perspectives of graph
optimization, automated searches, domain-specific language (DSL) compiler
techniques and system-level exploration. In WPK, we investigated two new
automated search approaches based on genetic algorithm and reinforcement
learning, respectively, to hunt the best operator code configurations targeting
specific hardware. A customized DSL compiler is further attached to these
search algorithms to generate efficient codes. To create an optimized inference
plan, WPK systematically explores high-speed operator implementations from
third-party libraries besides our automatically generated codes and singles out
the best implementation per operator for use. Extensive experiments
demonstrated that on a Tesla P100 GPU, we can achieve the maximum speedup of
5.40 over cuDNN and 1.63 over TVM on individual convolution operators, and run
up to 1.18 times faster than TensorRT for end-to-end model inference.
- Abstract(参考訳): 深層モデルのトレーニングと推論の促進は、実践において不可欠である。
既存のディープラーニングフレームワークは通常、トレーニング速度の最適化に集中し、推論固有の最適化に注意を払わない。
実際には、モデル推論は計算の面ではトレーニングとは異なる。例えば、トレーニング中の勾配更新ステップごとにパラメータがリフレッシュされるが、推論の間は不変である。
モデル推論のこれらの特別な特徴は、最適化の新たな機会を開く。
本稿では,グラフ最適化,自動検索,ドメイン固有言語(DSL)コンパイラ技術,システムレベルの探索といった観点から,複数の共同最適化を活用することで,推論を高速化するハードウェア対応最適化フレームワークであるWoodpecker-DL(WPK)を提案する。
wpkでは、遺伝的アルゴリズムと強化学習に基づく2つの新しい自動探索手法を調査し、特定のハードウェアをターゲットにした最適なオペレーターコード構成を探索した。
これらの検索アルゴリズムにはカスタマイズされたdslコンパイラが付加され、効率的なコードを生成する。
最適化された推論計画を作成するため,WPKは自動生成したコードに加えて,サードパーティライブラリからの高速演算子実装を体系的に探索し,使用する演算子毎の最良の実装を抽出する。
大規模な実験では、Tesla P100 GPUではcuDNNで5.40、TVMで1.63、エンドツーエンドモデル推論でTensorRTで1.18倍の速度で動作可能であることが示された。
関連論文リスト
- Leveraging Reinforcement Learning and Large Language Models for Code
Optimization [14.602997316032706]
本稿では,コード最適化の複雑さを低減するための新しいフレームワークを提案する。
提案するフレームワークは,大規模言語モデル(LLM)と強化学習(RL)に基づく。
我々は,新しい強化学習アルゴリズムであるCodeT5言語モデルとRRHFを用いて,PIEデータセット上でいくつかの実験を行った。
論文 参考訳(メタデータ) (2023-12-09T19:50:23Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。
他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。
この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T03:47:14Z) - dPRO: A Generic Profiling and Optimization System for Expediting
Distributed DNN Training [12.413533491501548]
本稿では,分散トレーニングシステムの性能ボトルネックを特定するツールとして,dPROを提案する。
我々は,複数のディープラーニングフレームワーク(PyTorch,MXNet,AllReduce,Serverアーキテクチャ)と代表的通信方式にdPROを実装した。
大規模な実験により、dPROは、ほとんどのケースで5%のエラーで様々な環境での分散トレーニングのパフォーマンスを予測し、ベースラインを最大87.1%上回る最適化戦略を見出した。
論文 参考訳(メタデータ) (2022-05-05T07:15:25Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。
我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文 参考訳(メタデータ) (2021-09-28T05:33:21Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。