論文の概要: Towards High Performance, Portability, and Productivity: Lightweight
Augmented Neural Networks for Performance Prediction
- arxiv url: http://arxiv.org/abs/2003.07497v2
- Date: Sun, 30 Aug 2020 08:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 21:57:20.195577
- Title: Towards High Performance, Portability, and Productivity: Lightweight
Augmented Neural Networks for Performance Prediction
- Title(参考訳): 高性能、ポータビリティ、生産性を目指して:パフォーマンス予測のための軽量拡張ニューラルネットワーク
- Authors: Ajitesh Srivastava (1), Naifeng Zhang (1), Rajgopal Kannan (2), Viktor
K. Prasanna (1) ((1) University of Southern California, (2) US Army Research
Lab-West)
- Abstract要約: カーネル変種ハードウェアの任意の組み合わせのための軽量な拡張ニューラルネットワークを提案する。
従来のフィードフォワードニューラルネットワークよりもはるかに優れた、3%の低いMAPEが得られるのです。
私たちの変分選択アプローチは、Halideの実装で、Halideの自動スケジューリングよりも最大1.7倍のスピードアップを得るために使用できます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Writing high-performance code requires significant expertise in the
programming language, compiler optimizations, and hardware knowledge. This
often leads to poor productivity and portability and is inconvenient for a
non-programmer domain-specialist such as a Physicist. More desirable is a
high-level language where the domain-specialist simply specifies the workload
in terms of high-level operations (e.g., matrix-multiply(A, B)), and the
compiler identifies the best implementation fully utilizing the heterogeneous
platform. For creating a compiler that supports productivity, portability, and
performance simultaneously, it is crucial to predict the performance of various
available implementations (variants) of the dominant operations (kernels)
contained in the workload on various hardware to decide (a) which variant
should be chosen for each kernel in the workload, and (b) on which hardware
resource the variant should run. To enable the performance prediction, we
propose lightweight augmented neural networks for arbitrary combinations of
kernel-variant-hardware. A key innovation is utilizing the mathematical
complexity of the kernels as a feature to achieve higher accuracy. These models
are compact to reduce training time and fast inference during compile-time and
run-time. Using models with less than 75 parameters, and only 250 training data
instances, we are able to obtain a low MAPE of 3%, significantly outperforming
traditional feed-forward neural networks on 48 kernel-variant-hardware
combinations. We further demonstrate that our variant-selection approach can be
used in Halide implementations to obtain up to 1.7x speedup over Halide's
auto-scheduler.
- Abstract(参考訳): 高性能なコードを書くには、プログラミング言語、コンパイラの最適化、ハードウェアの知識にかなりの専門知識が必要です。
これはしばしば生産性とポータビリティの低下をもたらし、物理学者のような非プログラマのドメインスペシャリストには不都合である。
より望ましいのは、ドメインの専門家がハイレベルな操作(例えば、matrix-multiply(a, b))の観点でワークロードを単純に指定し、コンパイラがヘテロジニアスプラットフォームをフル活用した最適な実装を識別するハイレベル言語である。
生産性、ポータビリティ、パフォーマンスを同時にサポートするコンパイラを作成するためには、様々なハードウェア上のワークロードに含まれる主要な操作(カーネル)の様々な実装(変種)のパフォーマンスを予測することが不可欠である。
(a)ワークロードの各カーネルに対して選択すべき変種、および
(b) 変種が実行すべきハードウェアリソースについて。
性能予測を実現するために,カーネル可変ハードウェアの任意の組み合わせのための軽量な拡張ニューラルネットワークを提案する。
重要な革新は、高い精度を達成するためにカーネルの数学的複雑さを活用することである。
これらのモデルはコンパクトで、コンパイル時と実行時のトレーニング時間と高速な推論時間を削減できる。
75パラメータ未満のモデルと250のトレーニングデータインスタンスのみを使用して、従来のフィードフォワードニューラルネットワークを48のカーネル派生ハードウェアの組み合わせで大幅に上回る、3%の低いMAPEを得ることができます。
さらに,halideのauto-schedulerに対する最大1.7倍の高速化を実現するために,私たちの変種選択アプローチがhalideの実装で利用可能であることを実証する。
関連論文リスト
- Jacobian-Enhanced Neural Networks [0.0]
ヤコビアン強化ニューラルネットワーク(JENN)は密結合多層パーセプトロンである。
JENNの主な利点は、標準のニューラルネットワークに比べてトレーニングポイントが少なくて精度が良いことである。
論文 参考訳(メタデータ) (2024-06-13T14:04:34Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep
Learning Compilation [8.64220475114214]
oneDNN Graph Compilerは、コンパイラ最適化とエキスパートチューニングされたカーネルの両方のテクニックをハイパフォーマンスコード生成に使用するためのハイブリッドアプローチを採用している。
実験結果から,既存のテンソルコンパイラやプリミティブライブラリよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-01-03T19:52:17Z) - Towards making the most of NLP-based device mapping optimization for
OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。
ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。
実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文 参考訳(メタデータ) (2022-08-30T10:20:55Z) - Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to
Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。
これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-09T22:48:39Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Efficient Algorithms for Device Placement of DNN Graph Operators [12.871398348743591]
現代の機械学習ワークロードは、実行に非常にコストがかかる複雑な構造を持つ大規模なモデルを使用する。
複雑なモデルを実行するデバイスは、CPUに加えて、ハードウェアアクセラレータとして提供されるドメイン固有のアクセラレータが盛んになるにつれて、ますます異質になりつつある。
近年の研究では、モデルの並列性、すなわちニューラルネットワークの計算グラフを複数のデバイスに分割することで、大きな利益が得られることが示されている。
本稿では,DNN演算子のデバイス配置のコアとなる構造的最適化問題を,特に現代のパイプライン環境において,推論とトレーニングの両方のために同定し,分離する。
論文 参考訳(メタデータ) (2020-06-29T22:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。