論文の概要: Hierarchical Roofline Performance Analysis for Deep Learning
Applications
- arxiv url: http://arxiv.org/abs/2009.05257v4
- Date: Wed, 25 Nov 2020 02:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 22:17:36.232758
- Title: Hierarchical Roofline Performance Analysis for Deep Learning
Applications
- Title(参考訳): 階層型ルーフライン性能解析によるディープラーニング応用
- Authors: Charlene Yang, Yunsong Wang, Steven Farrell, Thorsten Kurth, Samuel
Williams
- Abstract要約: 本稿では、NVIDIA GPU上で階層的なロホライン解析を行うために必要な性能データを収集する実用的な手法を提案する。
実験的なRoofline Toolkitの拡張について論じ、さまざまなデータ精度の幅広いサポートとコアサポートについて論じ、アプリケーションパフォーマンス情報を正確に収集するNsight Computeベースの方法を紹介した。
- 参考スコア(独自算出の注目度): 0.06999740786886534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a practical methodology for collecting performance data
necessary to conduct hierarchical Roofline analysis on NVIDIA GPUs. It
discusses the extension of the Empirical Roofline Toolkit for broader support
of a range of data precisions and Tensor Core support and introduces a Nsight
Compute based method to accurately collect application performance information.
This methodology allows for automated machine characterization and application
characterization for Roofline analysis across the entire memory hierarchy on
NVIDIA GPUs, and it is validated by a complex deep learning application used
for climate image segmentation. We use two versions of the code, in TensorFlow
and PyTorch respectively, to demonstrate the use and effectiveness of this
methodology. We highlight how the application utilizes the compute and memory
capabilities on the GPU and how the implementation and performance differ in
two deep learning frameworks.
- Abstract(参考訳): 本稿では,NVIDIA GPU上で階層的なロホライン解析を行うために必要な性能データ収集手法を提案する。
さまざまなデータ精度の広範なサポートとTensor CoreサポートのためのEmpirical Roofline Toolkitの拡張について論じ、アプリケーションパフォーマンス情報を正確に収集するNsight Computeベースの方法を紹介した。
この手法は、NVIDIA GPU上のメモリ階層全体にわたって、Roofline分析のための自動マシンキャラクタリゼーションとアプリケーションキャラクタリゼーションを可能にし、気候画像セグメンテーションに使用される複雑なディープラーニングアプリケーションによって検証される。
TensorFlowとPyTorchの2つのバージョンを使用して、この方法論の使用と有効性を実証しています。
アプリケーションがどのようにgpu上の計算とメモリの機能を利用するか、そして2つのディープラーニングフレームワークで実装とパフォーマンスがどう異なるかが注目される。
関連論文リスト
- DeepContext: A Context-aware, Cross-platform, and Cross-framework Tool for Performance Profiling and Analysis of Deep Learning Workloads [5.987963635879264]
本稿では,高レベルのPythonコード,ディープラーニングフレームワーク,C/C++で記述された基盤ライブラリ,GPU上で実行されるデバイスコードなど,プログラムコンテキストをリンクする新しいプロファイラであるDeepContextを紹介する。
DeepContextには、PyTorchやJAXといった主要なディープラーニングフレームワークのための粗いパフォーマンスメトリクスときめ細かいパフォーマンスメトリクスの両方が組み込まれています。
さらにDeepContextは、ユーザがホットスポットを素早く識別できる新しいGUIと、パフォーマンスメトリクスとプログラムコンテキストに基づいた潜在的な最適化をユーザに提案する革新的な自動パフォーマンスアナライザを統合している。
論文 参考訳(メタデータ) (2024-11-05T04:15:26Z) - Performance Tuning for GPU-Embedded Systems: Machine-Learning-based and
Analytical Model-driven Tuning Methodologies [0.0]
本研究は,分析モデル駆動型チューニング手法と機械学習(ML)に基づくチューニング手法を紹介する。
NVIDIA JetsonシステムにおけるBPLGライブラリの異なる並列プレフィックス実装のための2つのチューニング手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-10-24T22:09:03Z) - Benchmarking Node Outlier Detection on Graphs [90.29966986023403]
グラフの外れ値検出は、多くのアプリケーションにおいて、新しいが重要な機械学習タスクである。
UNODと呼ばれるグラフに対して、最初の包括的教師なしノード外乱検出ベンチマークを示す。
論文 参考訳(メタデータ) (2022-06-21T01:46:38Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - UPDesc: Unsupervised Point Descriptor Learning for Robust Registration [54.95201961399334]
UPDescは、ロバストポイントクラウド登録のためのポイント記述子を学習するための教師なしの方法である。
学習した記述子は既存の教師なし手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-08-05T17:11:08Z) - Densely Nested Top-Down Flows for Salient Object Detection [137.74130900326833]
本稿では,物体検出におけるトップダウンモデリングの役割を再考する。
密度の高いトップダウンフロー(DNTDF)ベースのフレームワークを設計する。
DNTDFのすべての段階において、高いレベルの特徴はプログレッシブ圧縮ショートカットパス(PCSP)を介して読み込まれる。
論文 参考訳(メタデータ) (2021-02-18T03:14:02Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z) - Time-Based Roofline for Deep Learning Performance Analysis [2.547058931949976]
ディープラーニングアプリケーションの最適化を容易にするRooflineベースのパフォーマンス解析手法。
2次元畳み込みと長時間の短期記憶という2つの代表的カーネルを用いて、この新しいアプローチの有効性を検証し、実証する。
一般的なアドホックアプローチと比較して、この研究はコードパフォーマンスを分析するためのより体系的な方法を形成するのに役立ちます。
論文 参考訳(メタデータ) (2020-09-09T23:29:04Z) - Optimizing Streaming Parallelism on Heterogeneous Many-Core
Architectures: A Machine Learning Based Approach [16.702537371391053]
本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを導出する自動手法を提案する。
提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの結果のパフォーマンスを推定するために,性能モデルを用いる。
シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでそれぞれ1.6倍,1.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2020-03-05T21:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。