Fugu-MT 論文翻訳(概要): Using hardware performance counters to speed up autotuning convergence on GPUs

論文の概要: Using hardware performance counters to speed up autotuning convergence on GPUs

arxiv url: http://arxiv.org/abs/2102.05297v1
Date: Wed, 10 Feb 2021 07:42:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-11 14:23:40.527623
Title: Using hardware performance counters to speed up autotuning convergence on GPUs
Title（参考訳）: GPUの自動収束を高速化するハードウェアパフォーマンスカウンタの使用
Authors: Ji\v{r}\'i Filipovi\v{c} and Jana Hozzov\'a and Amin Nezarat and Jaroslav O\v{l}ha and Filip Petrovi\v{c}
Abstract要約: チューニング空間を探索する新しい手法を提案する。この方法は、経験的チューニング中にハードウェアパフォーマンスカウンタを収集する。提案手法は,アプリケーションが異なるハードウェアに移植される必要がある場合や,異なる特性を持つデータを処理する必要がある場合,自動チューニングを高速化できることを実験的に実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Nowadays, GPU accelerators are commonly used to speed up general-purpose computing tasks on a variety of hardware. However, due to the diversity of GPU architectures and processed data, optimization of codes for a particular type of hardware and specific data characteristics can be extremely challenging. The autotuning of performance-relevant source-code parameters allows for automatic optimization of applications and keeps their performance portable. Although the autotuning process typically results in code speed-up, searching the tuning space can bring unacceptable overhead if (i) the tuning space is vast and full of poorly-performing implementations, or (ii) the autotuning process has to be repeated frequently because of changes in processed data or migration to different hardware. In this paper, we introduce a novel method for searching tuning spaces. The method takes advantage of collecting hardware performance counters (also known as profiling counters) during empirical tuning. Those counters are used to navigate the searching process towards faster implementations. The method requires the tuning space to be sampled on any GPU. It builds a problem-specific model, which can be used during autotuning on various, even previously unseen inputs or GPUs. Using a set of five benchmarks, we experimentally demonstrate that our method can speed up autotuning when an application needs to be ported to different hardware or when it needs to process data with different characteristics. We also compared our method to state of the art and show that our method is superior in terms of the number of searching steps and typically outperforms other searches in terms of convergence time.
Abstract（参考訳）: 現在、gpuアクセラレータは様々なハードウェア上で汎用コンピューティングタスクを高速化するために一般的に使われている。しかし、gpuアーキテクチャと処理データの多様性のため、特定の種類のハードウェアと特定のデータ特性のためのコードの最適化は極めて困難である。パフォーマンス関連ソースコードパラメータの自動調整により、アプリケーションの自動最適化が可能になり、パフォーマンスをポータブルに保ちます。 i)チューニングスペースが膨大でパフォーマンスの悪い実装に満ちている場合、または(ii)処理データの変更や異なるハードウェアへの移行のために、自動調整プロセスを頻繁に繰り返す必要がある場合、チューニングスペースの検索は許容できないオーバーヘッドをもたらす可能性があります。本稿では,チューニング空間を探索する新しい手法を提案する。この方法は、経験的チューニング中にハードウェアパフォーマンスカウンタ(プロファイリングカウンタとも呼ばれる)を収集する。これらのカウンタは、より高速な実装に向けて検索プロセスをナビゲートするために使用される。この手法では、任意のGPU上でチューニングスペースをサンプリングする必要がある。問題固有のモデルを構築し、さまざまな、あるいはこれまで見つからなかったインプットやgpuのオートチューニングに使用できる。 5つのベンチマークを用いて,アプリケーションが異なるハードウェアに移植する必要がある場合や,異なる特性を持つデータを処理する必要がある場合,自動チューニングを高速化できることを実験的に実証した。また,本手法を最先端技術と比較し,探索ステップの数では優れ,収束時間では他の探索よりも優れていることを示す。

関連論文リスト

NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。 DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文参考訳（メタデータ） (2024-03-26T12:31:58Z)
Performance Embeddings: A Similarity-based Approach to Automatic Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文参考訳（メタデータ） (2023-03-14T15:51:35Z)
HPC Storage Service Autotuning Using Variational-Autoencoder-Guided Asynchronous Bayesian Optimization [3.153934519625761]
我々は,HPCストレージサービスパラメータをチューニングするための変分自動エンコーダ誘導非同期ベイズ最適化法を開発した。我々は、DeepHyperオープンソースフレームワークにアプローチを実装し、ArgonneのThetaスーパーコンピュータ上での高エネルギー物理ワークフローの自動チューニングに適用する。われわれのアプローチは、最先端のオートチューニングフレームワークのスピードに匹敵し、リソース利用と並列化の能力でそれらを上回ります。
論文参考訳（メタデータ） (2022-10-03T10:12:57Z)
HW-Aware Initialization of DNN Auto-Tuning to Improve Exploration Time and Robustness [1.165213554548421]
本研究は,VTAハードウェアにおける自動チューニングプロセスとその基盤となる性能予測モデルに,不正な構成がどう影響するかを評価する。 AutoTVMの妥当性駆動方式が開発され、最良のソリューションを見つけるのに必要なハードウェアの41.6%しか必要としない。
論文参考訳（メタデータ） (2022-05-31T07:16:14Z)
MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文参考訳（メタデータ） (2021-11-30T03:52:15Z)
AutoTune: Controller Tuning for High-Speed Flight [117.69289575486246]
高速操作を追跡するとき、コントローラーはチューニングにどの程度敏感か? 自動チューニングには何のアルゴリズムが使えるのか? 高速飛行専用に調整したサンプリングに基づくチューニングアルゴリズムであるautotuneを提案する。
論文参考訳（メタデータ） (2021-03-19T09:12:51Z)
Searching CUDA code autotuning spaces with hardware performance counters: data from benchmarks running on various GPU architectures [0.0]
我々は,パフォーマンス関連ソースコードパラメータを考慮に入れたベンチマークを開発し,GPUアーキテクチャのピークに近い性能に到達した。当社のフレームワークであるKernel Tuning Toolkitでは、複数のGPU上での時間とハードウェアパフォーマンスカウンタを測定し、5つのベンチマークの完全なチューニングスペースを測定しました。本稿では,検索者に対するロバストな評価や,他者との比較に用いたスクリプトについて詳述する。
論文参考訳（メタデータ） (2021-02-10T07:51:09Z)
Autotuning PolyBench Benchmarks with LLVM Clang/Polly Loop Optimization Pragmas Using Bayesian Optimization [0.6583716093321499]
オートチューニング(Autotuning)は、カーネルやアプリケーションの実装/設定が可能な検索スペースを探索するアプローチである。ベイズ最適化を利用してパラメータ空間探索を行う自動チューニングフレームワークを開発した。
論文参考訳（メタデータ） (2020-10-15T22:09:42Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
Latency-Aware Differentiable Neural Architecture Search [113.35689580508343]
近年、探索コストの低さと検索空間設計の柔軟性から、微分可能なニューラルネットワーク探索法が人気を博している。しかし、これらの手法はネットワーク最適化の難しさに悩まされており、検索されたネットワークはハードウェアに不便な場合が多い。本稿では,この問題を最適化に微分可能な遅延損失項を追加することにより,精度とレイテンシのトレードオフをバランス係数で行うことができる。
論文参考訳（メタデータ） (2020-01-17T15:55:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。