論文の概要: Optimising the Performance of Convolutional Neural Networks across
Computing Systems using Transfer Learning
- arxiv url: http://arxiv.org/abs/2010.10621v1
- Date: Tue, 20 Oct 2020 20:58:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 07:58:10.640514
- Title: Optimising the Performance of Convolutional Neural Networks across
Computing Systems using Transfer Learning
- Title(参考訳): 伝達学習を用いたコンピュータシステム間の畳み込みニューラルネットワークの性能最適化
- Authors: Rik Mulder, Valentin Radu, Christophe Dubach
- Abstract要約: 本稿では,パフォーマンスモデリングの機械学習に基づくアプローチにより,長大なプロファイリングステージを置き換えることを提案する。
トレーニング後、我々のパフォーマンスモデルは任意のレイヤ構成における畳み込みプリミティブのパフォーマンスを推定できる。
プリミティブ選択による大規模ニューラルネットワークの実行を最適化する時間は、数時間から秒に短縮される。
- 参考スコア(独自算出の注目度): 0.08594140167290096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The choice of convolutional routines (primitives) to implement neural
networks has a tremendous impact on their inference performance (execution
speed) on a given hardware platform. To optimise a neural network by primitive
selection, the optimal primitive is identified for each layer of the network.
This process requires a lengthy profiling stage, iterating over all the
available primitives for each layer configuration, to measure their execution
time on the target platform. Because each primitive exploits the hardware in
different ways, new profiling is needed to obtain the best performance when
moving to another platform. In this work, we propose to replace this
prohibitively expensive profiling stage with a machine learning based approach
of performance modeling. Our approach speeds up the optimisation time
drastically. After training, our performance model can estimate the performance
of convolutional primitives in any layer configuration. The time to optimise
the execution of large neural networks via primitive selection is reduced from
hours to just seconds. Our performance model is easily transferable to other
target platforms. We demonstrate this by training a performance model on an
Intel platform and performing transfer learning to AMD and ARM processor
devices with minimal profiled samples.
- Abstract(参考訳): ニューラルネットワークを実装するための畳み込みルーチン(プリミティブ)の選択は、特定のハードウェアプラットフォームにおける推論パフォーマンス(実行速度)に大きな影響を与える。
ニューラルネットワークをプリミティブ選択により最適化するために、ネットワークの各層に対して最適なプリミティブを識別する。
このプロセスは、ターゲットプラットフォーム上での実行時間を測定するために、各レイヤの設定で利用可能なすべてのプリミティブを反復して、長いプロファイリングステージを必要とする。
各プリミティブは異なる方法でハードウェアを利用するため、他のプラットフォームに移行する際に最高のパフォーマンスを得るためには、新しいプロファイリングが必要である。
本研究では,この高額なプロファイリングステージを,機械学習によるパフォーマンスモデリング手法に置き換えることを提案する。
我々のアプローチは最適化時間を劇的に短縮する。
トレーニング後、我々のパフォーマンスモデルは任意のレイヤ構成における畳み込みプリミティブのパフォーマンスを推定できる。
プリミティブ選択による大規模ニューラルネットワークの実行を最適化する時間は、数時間から秒に短縮される。
私たちのパフォーマンスモデルは、他のターゲットプラットフォームに簡単に転送できます。
我々は、Intelプラットフォーム上でパフォーマンスモデルをトレーニングし、最小プロファイルサンプルでAMDおよびARMプロセッサデバイスへの転送学習を実行することでこれを実証する。
関連論文リスト
- Sparks of Quantum Advantage and Rapid Retraining in Machine Learning [0.0]
本研究では、最小パラメータで複雑な関数を表現するために、強力なニューラルネットワークアーキテクチャを最適化する。
高速再トレーニング機能を導入し、古いサンプルを再処理することなく、ネットワークを新しいデータで再トレーニングできるようにする。
量子ハードウェアとアルゴリズム最適化のさらなる進歩により、量子最適化機械学習モデルが幅広い応用をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-22T19:55:44Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to
Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。
これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-09T22:48:39Z) - EvoPruneDeepTL: An Evolutionary Pruning Model for Transfer Learning
based Deep Neural Networks [15.29595828816055]
本稿では,トランスファーラーニングに基づくディープニューラルネットワークのための進化的プルーニングモデルを提案する。
EvoPruneDeepTLは、最後の完全に接続されたレイヤを遺伝的アルゴリズムによって最適化されたスパースレイヤで置き換える。
その結果,ネットワーク全体の計算効率に対するEvoPruneDeepTLと特徴選択の寄与が示された。
論文 参考訳(メタデータ) (2022-02-08T13:07:55Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Toward Accurate Platform-Aware Performance Modeling for Deep Neural
Networks [0.17499351967216337]
機械学習に基づくPerfNetV2は、さまざまなGPUアクセラレータ上でのニューラルネットワークのパフォーマンスをモデル化するための、これまでの作業の精度を向上させる。
アプリケーションを利用すると、アプリケーションで使用される畳み込みニューラルネットワークの推論時間とトレーニング時間を予測することができる。
我々のケーススタディでは、PerfNetV2が13.1%のLeNet、AlexNet、VGG16、NVIDIA GTX-1080Tiで平均絶対パーセンテージエラーを発生し、ICBD 2018で発表された以前の研究のエラー率は200%に達する可能性がある。
論文 参考訳(メタデータ) (2020-12-01T01:42:23Z) - TASO: Time and Space Optimization for Memory-Constrained DNN Inference [5.023660118588569]
畳み込みニューラルネットワーク(CNN)は、産業用ロボティクスや自動化システムからモバイルデバイスでの生体認証まで、多くの組み込みアプリケーションで使用されている。
本稿では、畳み込み層を実装するプリミティブ演算を選択するための整数線形計画法(ILP)に基づくCNNモデルの事前ドメイン固有最適化手法を提案する。
論文 参考訳(メタデータ) (2020-05-21T15:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。