論文の概要: Time-Based Roofline for Deep Learning Performance Analysis
- arxiv url: http://arxiv.org/abs/2009.04598v3
- Date: Tue, 22 Sep 2020 21:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 12:24:50.930764
- Title: Time-Based Roofline for Deep Learning Performance Analysis
- Title(参考訳): 深層学習性能解析のための時間ベースルーフライン
- Authors: Yunsong Wang, Charlene Yang, Steven Farrell, Yan Zhang, Thorsten
Kurth, Samuel Williams
- Abstract要約: ディープラーニングアプリケーションの最適化を容易にするRooflineベースのパフォーマンス解析手法。
2次元畳み込みと長時間の短期記憶という2つの代表的カーネルを用いて、この新しいアプローチの有効性を検証し、実証する。
一般的なアドホックアプローチと比較して、この研究はコードパフォーマンスを分析するためのより体系的な方法を形成するのに役立ちます。
- 参考スコア(独自算出の注目度): 2.547058931949976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning applications are usually very compute-intensive and require a
long run time for training and inference. This has been tackled by researchers
from both hardware and software sides, and in this paper, we propose a
Roofline-based approach to performance analysis to facilitate the optimization
of these applications. This approach is an extension of the Roofline model
widely used in traditional high-performance computing applications, and it
incorporates both compute/bandwidth complexity and run time in its formulae to
provide insights into deep learning-specific characteristics. We take two sets
of representative kernels, 2D convolution and long short-term memory, to
validate and demonstrate the use of this new approach, and investigate how
arithmetic intensity, cache locality, auto-tuning, kernel launch overhead, and
Tensor Core usage can affect performance. Compared to the common ad-hoc
approach, this study helps form a more systematic way to analyze code
performance and identify optimization opportunities for deep learning
applications.
- Abstract(参考訳): ディープラーニングアプリケーションは、通常、非常に計算集約的で、トレーニングと推論に長い時間を要する。
ハードウェアとソフトウェアの両方の研究者がこの問題に取り組み,本稿では,アプリケーションの最適化を容易にするため,性能解析のためのルーフラインベースのアプローチを提案する。
このアプローチは、従来の高性能コンピューティングアプリケーションで広く使われているルーフラインモデルの拡張であり、計算/バンド幅の複雑さと実行時間の両方を計算式に組み込んで、ディープラーニング特有の特性に関する洞察を提供する。
2次元畳み込みと長時間の短期記憶という2つの代表カーネルの集合を用いて、この新しいアプローチの検証と実演を行い、演算強度、キャッシュローカリティ、自動チューニング、カーネル起動オーバーヘッド、Tensor Coreの使用がパフォーマンスに与える影響について検討する。
一般的なアドホックアプローチと比較して、この研究は、コードパフォーマンスを分析し、ディープラーニングアプリケーションのための最適化機会を特定するためのより体系的な方法を形成するのに役立つ。
関連論文リスト
- Inference Scaling for Long-Context Retrieval Augmented Generation [37.15479223789199]
本研究では,検索拡張生成(RAG)のための推論スケーリングについて検討する。
インコンテキスト学習と反復的プロンプトという,2つの推論スケーリング戦略に注目します。
我々は、長期コンテキストの大規模言語モデル上での推論計算のスケーリングが、ベンチマークデータセットで最大58.9%のゲインを達成することを実証した。
論文 参考訳(メタデータ) (2024-10-06T03:42:15Z) - Self-STORM: Deep Unrolled Self-Supervised Learning for Super-Resolution Microscopy [55.2480439325792]
我々は、シーケンス固有のモデルベースのオートエンコーダをトレーニングすることで、そのようなデータの必要性を軽減する、深層無学習の自己教師付き学習を導入する。
提案手法は, 監視対象の性能を超過する。
論文 参考訳(メタデータ) (2024-03-25T17:40:32Z) - Performance Tuning for GPU-Embedded Systems: Machine-Learning-based and
Analytical Model-driven Tuning Methodologies [0.0]
本研究は,分析モデル駆動型チューニング手法と機械学習(ML)に基づくチューニング手法を紹介する。
NVIDIA JetsonシステムにおけるBPLGライブラリの異なる並列プレフィックス実装のための2つのチューニング手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-10-24T22:09:03Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z) - Towards Constituting Mathematical Structures for Learning to Optimize [101.80359461134087]
近年,機械学習を利用してデータから最適化アルゴリズムを自動学習する技術が注目されている。
ジェネリックL2Oアプローチは反復更新ルールをパラメータ化し、ブラックボックスネットワークとして更新方向を学ぶ。
一般的なアプローチは広く適用できるが、学習されたモデルは過度に適合し、配布外テストセットにうまく一般化できない。
本稿では, 分布外問題に対して広く適用でき, 一般化された, 数学に着想を得た構造を持つ新しいL2Oモデルを提案する。
論文 参考訳(メタデータ) (2023-05-29T19:37:28Z) - Deep reinforcement learning applied to an assembly sequence planning
problem with user preferences [1.0558951653323283]
本稿では,アセンブリシーケンス計画問題におけるDRL手法の実装に対するアプローチを提案する。
提案手法では,RL環境のパラメトリックな動作を導入し,トレーニング時間とサンプル効率を改善する。
その結果,人的相互作用を伴う組立シーケンス計画問題への深層強化学習の適用の可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-13T14:25:15Z) - Model-Based Deep Learning: On the Intersection of Deep Learning and
Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。
数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。
モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文 参考訳(メタデータ) (2022-05-05T13:40:08Z) - Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。
本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文 参考訳(メタデータ) (2022-01-26T17:54:14Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z) - Hierarchical Roofline Performance Analysis for Deep Learning
Applications [0.06999740786886534]
本稿では、NVIDIA GPU上で階層的なロホライン解析を行うために必要な性能データを収集する実用的な手法を提案する。
実験的なRoofline Toolkitの拡張について論じ、さまざまなデータ精度の幅広いサポートとコアサポートについて論じ、アプリケーションパフォーマンス情報を正確に収集するNsight Computeベースの方法を紹介した。
論文 参考訳(メタデータ) (2020-09-11T07:16:55Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。