論文の概要: Autotuning Apache TVM-based Scientific Applications Using Bayesian
Optimization
- arxiv url: http://arxiv.org/abs/2309.07235v1
- Date: Wed, 13 Sep 2023 18:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 17:07:50.838367
- Title: Autotuning Apache TVM-based Scientific Applications Using Bayesian
Optimization
- Title(参考訳): ベイズ最適化を用いたApache TVMに基づく科学応用の自動化
- Authors: Xingfu Wu, Praveen Paramasivam, Valerie Taylor
- Abstract要約: ベイジアン最適化を用いた新しいTVM自動チューニングフレームワークを提案し, LU, Cholesky, 3mmなどの線形代数カーネルの実装にTVMテンソル表現言語を用いた。
提案するオートチューニングフレームワークと,TVMオートチューニングフレームワークであるAutoTVMを4つのチューナーで比較したところ,ほとんどの場合,我々のフレームワークがAutoTVMを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Apache TVM (Tensor Virtual Machine), an open source machine learning compiler
framework designed to optimize computations across various hardware platforms,
provides an opportunity to improve the performance of dense matrix
factorizations such as LU (Lower Upper) decomposition and Cholesky
decomposition on GPUs and AI (Artificial Intelligence) accelerators. In this
paper, we propose a new TVM autotuning framework using Bayesian Optimization
and use the TVM tensor expression language to implement linear algebra kernels
such as LU, Cholesky, and 3mm. We use these scientific computation kernels to
evaluate the effectiveness of our methods on a GPU cluster, called Swing, at
Argonne National Laboratory. We compare the proposed autotuning framework with
the TVM autotuning framework AutoTVM with four tuners and find that our
framework outperforms AutoTVM in most cases.
- Abstract(参考訳): Apache TVM(Tensor Virtual Machine)は、さまざまなハードウェアプラットフォームにわたる計算を最適化するために設計されたオープンソースの機械学習コンパイラフレームワークで、LU(Lower Upper)分解やCholeskyによるGPUとAI(Artificial Intelligence)アクセラレータの分解といった、密度の高い行列因数分解のパフォーマンスを改善する機会を提供する。
本稿では,ベイズ最適化を用いた新しいTVM自動チューニングフレームワークを提案し,LU,Cholesky,3mmなどの線形代数カーネルの実装にTVMテンソル表現言語を用いる。
我々はこれらの計算カーネルを用いて,Argonne National LaboratoryのSwingと呼ばれるGPUクラスタ上での手法の有効性を評価する。
提案するオートチューニングフレームワークと,TVMオートチューニングフレームワークであるAutoTVMを4つのチューナーで比較したところ,ほとんどの場合,我々のフレームワークがAutoTVMを上回っていることがわかった。
関連論文リスト
- CATBench: A Compiler Autotuning Benchmarking Suite for Black-box Optimization [5.909352339240516]
我々は、コンパイラ自動チューニングの複雑さを捉える包括的なベンチマークスイートであるCATBenchを紹介する。
CATBenchのベンチマークは、テンソル代数から画像処理、クラスタリングまで、機械学習指向の計算の範囲にまたがっている。
我々はCATBenchをいくつかの最先端アルゴリズムで検証し、その強みと弱点を明らかにした。
論文 参考訳(メタデータ) (2024-06-24T20:15:04Z) - Automatic Generators for a Family of Matrix Multiplication Routines with
Apache TVM [0.20971479389679337]
我々は、GotoBLAS2、BLIS、OpenBLASといった一般的な線形代数ライブラリのアプローチに従うアルゴリズム群を生成する。
我々はまた、Apache TVMフレームワークを活用して、GEMM用のプロセッサ固有のマイクロカーネルを完全に引き出す。
論文 参考訳(メタデータ) (2023-10-31T10:36:26Z) - Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。
各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文 参考訳(メタデータ) (2023-05-31T19:32:43Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - OMLT: Optimization & Machine Learning Toolkit [54.58348769621782]
最適化と機械学習ツールキット(OMLT)は、ニューラルネットワークと勾配ブーストツリーサロゲートモデルを組み込んだオープンソースのソフトウェアパッケージである。
我々は、OMLTを可能とした最適化技術の進歩について論じ、OMLTが代数モデリング言語であるPyomoとシームレスに統合されていることを示す。
論文 参考訳(メタデータ) (2022-02-04T22:23:45Z) - Autotuning PolyBench Benchmarks with LLVM Clang/Polly Loop Optimization
Pragmas Using Bayesian Optimization (extended version) [0.8070511670572696]
LLVM Clang/Pollyループ最適化プラグマを用いてPolyBenchベンチマークを最適化する。
次に、自動調整フレームワークを使用して、pragmaパラメータを最適化してパフォーマンスを改善します。
本稿では,Floyd-Warshallベンチマークの性能向上のために,単純なmctreeオートチューニングフレームワークを用いたループ自動チューニングを提案する。
論文 参考訳(メタデータ) (2021-04-27T14:46:57Z) - Vector-Vector-Matrix Architecture: A Novel Hardware-Aware Framework for
Low-Latency Inference in NLP Applications [23.37992621844846]
ディープニューラルネットワークは、信頼できる自然言語処理(NLP)アプリケーションを構築するための標準アプローチとなっている。
NMTの推論時間において遅延を大幅に低減するベクトルベクトル行列アーキテクチャ(VVMA)を提案する。
提案手法は,NMTで使用するシーケンス・ツー・シーケンスモデルとトランスフォーマーモデルのレイテンシを4倍に削減できることを示す。
論文 参考訳(メタデータ) (2020-10-06T16:54:08Z) - Optimizing Block-Sparse Matrix Multiplications on CUDA with TVM [0.0]
我々は、ディープラーニングコンパイラであるTVMを利用して、動作のスケジュール空間を探索し、効率的なコードを生成する。
クロススレッドリダクションベースの実装は、他の最先端フレームワークと比較して、競争力やパフォーマンスが向上しました。
論文 参考訳(メタデータ) (2020-07-26T04:50:51Z) - Auto-PyTorch Tabular: Multi-Fidelity MetaLearning for Efficient and
Robust AutoDL [53.40030379661183]
Auto-PyTorchは、完全に自動化されたディープラーニング(AutoDL)を実現するフレームワーク
ディープニューラルネットワーク(DNN)のウォームスタートとアンサンブルのためのマルチフィデリティ最適化とポートフォリオ構築を組み合わせる。
Auto-PyTorchは、いくつかの最先端の競合製品よりもパフォーマンスが良いことを示す。
論文 参考訳(メタデータ) (2020-06-24T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。