論文の概要: Autotuning Apache TVM-based Scientific Applications Using Bayesian
Optimization
- arxiv url: http://arxiv.org/abs/2309.07235v1
- Date: Wed, 13 Sep 2023 18:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 17:07:50.838367
- Title: Autotuning Apache TVM-based Scientific Applications Using Bayesian
Optimization
- Title(参考訳): ベイズ最適化を用いたApache TVMに基づく科学応用の自動化
- Authors: Xingfu Wu, Praveen Paramasivam, Valerie Taylor
- Abstract要約: ベイジアン最適化を用いた新しいTVM自動チューニングフレームワークを提案し, LU, Cholesky, 3mmなどの線形代数カーネルの実装にTVMテンソル表現言語を用いた。
提案するオートチューニングフレームワークと,TVMオートチューニングフレームワークであるAutoTVMを4つのチューナーで比較したところ,ほとんどの場合,我々のフレームワークがAutoTVMを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Apache TVM (Tensor Virtual Machine), an open source machine learning compiler
framework designed to optimize computations across various hardware platforms,
provides an opportunity to improve the performance of dense matrix
factorizations such as LU (Lower Upper) decomposition and Cholesky
decomposition on GPUs and AI (Artificial Intelligence) accelerators. In this
paper, we propose a new TVM autotuning framework using Bayesian Optimization
and use the TVM tensor expression language to implement linear algebra kernels
such as LU, Cholesky, and 3mm. We use these scientific computation kernels to
evaluate the effectiveness of our methods on a GPU cluster, called Swing, at
Argonne National Laboratory. We compare the proposed autotuning framework with
the TVM autotuning framework AutoTVM with four tuners and find that our
framework outperforms AutoTVM in most cases.
- Abstract(参考訳): Apache TVM(Tensor Virtual Machine)は、さまざまなハードウェアプラットフォームにわたる計算を最適化するために設計されたオープンソースの機械学習コンパイラフレームワークで、LU(Lower Upper)分解やCholeskyによるGPUとAI(Artificial Intelligence)アクセラレータの分解といった、密度の高い行列因数分解のパフォーマンスを改善する機会を提供する。
本稿では,ベイズ最適化を用いた新しいTVM自動チューニングフレームワークを提案し,LU,Cholesky,3mmなどの線形代数カーネルの実装にTVMテンソル表現言語を用いる。
我々はこれらの計算カーネルを用いて,Argonne National LaboratoryのSwingと呼ばれるGPUクラスタ上での手法の有効性を評価する。
提案するオートチューニングフレームワークと,TVMオートチューニングフレームワークであるAutoTVMを4つのチューナーで比較したところ,ほとんどの場合,我々のフレームワークがAutoTVMを上回っていることがわかった。
関連論文リスト
- Automatic Generators for a Family of Matrix Multiplication Routines with
Apache TVM [0.20971479389679337]
我々は、GotoBLAS2、BLIS、OpenBLASといった一般的な線形代数ライブラリのアプローチに従うアルゴリズム群を生成する。
我々はまた、Apache TVMフレームワークを活用して、GEMM用のプロセッサ固有のマイクロカーネルを完全に引き出す。
論文 参考訳(メタデータ) (2023-10-31T10:36:26Z) - Use Your INSTINCT: INSTruction optimization usIng Neural bandits Coupled
with Transformers [69.70169378788411]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。
最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。
NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T02:01:16Z) - Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。
各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文 参考訳(メタデータ) (2023-05-31T19:32:43Z) - Performance Optimization using Multimodal Modeling and Heterogeneous GNN [1.304892050913381]
本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。
本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。
実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-25T04:27:43Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - OMLT: Optimization & Machine Learning Toolkit [54.58348769621782]
最適化と機械学習ツールキット(OMLT)は、ニューラルネットワークと勾配ブーストツリーサロゲートモデルを組み込んだオープンソースのソフトウェアパッケージである。
我々は、OMLTを可能とした最適化技術の進歩について論じ、OMLTが代数モデリング言語であるPyomoとシームレスに統合されていることを示す。
論文 参考訳(メタデータ) (2022-02-04T22:23:45Z) - Autotuning PolyBench Benchmarks with LLVM Clang/Polly Loop Optimization
Pragmas Using Bayesian Optimization (extended version) [0.8070511670572696]
LLVM Clang/Pollyループ最適化プラグマを用いてPolyBenchベンチマークを最適化する。
次に、自動調整フレームワークを使用して、pragmaパラメータを最適化してパフォーマンスを改善します。
本稿では,Floyd-Warshallベンチマークの性能向上のために,単純なmctreeオートチューニングフレームワークを用いたループ自動チューニングを提案する。
論文 参考訳(メタデータ) (2021-04-27T14:46:57Z) - Vector-Vector-Matrix Architecture: A Novel Hardware-Aware Framework for
Low-Latency Inference in NLP Applications [23.37992621844846]
ディープニューラルネットワークは、信頼できる自然言語処理(NLP)アプリケーションを構築するための標準アプローチとなっている。
NMTの推論時間において遅延を大幅に低減するベクトルベクトル行列アーキテクチャ(VVMA)を提案する。
提案手法は,NMTで使用するシーケンス・ツー・シーケンスモデルとトランスフォーマーモデルのレイテンシを4倍に削減できることを示す。
論文 参考訳(メタデータ) (2020-10-06T16:54:08Z) - Optimizing Block-Sparse Matrix Multiplications on CUDA with TVM [0.0]
我々は、ディープラーニングコンパイラであるTVMを利用して、動作のスケジュール空間を探索し、効率的なコードを生成する。
クロススレッドリダクションベースの実装は、他の最先端フレームワークと比較して、競争力やパフォーマンスが向上しました。
論文 参考訳(メタデータ) (2020-07-26T04:50:51Z) - Auto-PyTorch Tabular: Multi-Fidelity MetaLearning for Efficient and
Robust AutoDL [53.40030379661183]
Auto-PyTorchは、完全に自動化されたディープラーニング(AutoDL)を実現するフレームワーク
ディープニューラルネットワーク(DNN)のウォームスタートとアンサンブルのためのマルチフィデリティ最適化とポートフォリオ構築を組み合わせる。
Auto-PyTorchは、いくつかの最先端の競合製品よりもパフォーマンスが良いことを示す。
論文 参考訳(メタデータ) (2020-06-24T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。