論文の概要: Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent
- arxiv url: http://arxiv.org/abs/2406.20037v1
- Date: Fri, 28 Jun 2024 16:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 16:20:56.574384
- Title: Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent
- Title(参考訳): 雨だるま、雨だるま、雨だるま:微調整カーネルスケジューラとコーディネート染料の相性について
- Authors: Michael Canesche, Gaurav Verma, Fernando Magno Quintao Pereira,
- Abstract要約: カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。
このアプローチを、Ansorが生成した最初の300のカーネルに適用する。
この結果は20の有名なディープラーニングモデルで再現されている。
- 参考スコア(独自算出の注目度): 48.791943145735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine-learning models consist of kernels, which are algorithms applying operations on tensors -- data indexed by a linear combination of natural numbers. Examples of kernels include convolutions, transpositions, and vectorial products. There are many ways to implement a kernel. These implementations form the kernel's optimization space. Kernel scheduling is the problem of finding the best implementation, given an objective function -- typically execution speed. Kernel optimizers such as Ansor, Halide, and AutoTVM solve this problem via search heuristics, which combine two phases: exploration and exploitation. The first step evaluates many different kernel optimization spaces. The latter tries to improve the best implementations by investigating a kernel within the same space. For example, Ansor combines kernel generation through sketches for exploration and leverages an evolutionary algorithm to exploit the best sketches. In this work, we demonstrate the potential to reduce Ansor's search time while enhancing kernel quality by incorporating Droplet Search, an AutoTVM algorithm, into Ansor's exploration phase. The approach involves limiting the number of samples explored by Ansor, selecting the best, and exploiting it with a coordinate descent algorithm. By applying this approach to the first 300 kernels that Ansor generates, we usually obtain better kernels in less time than if we let Ansor analyze 10,000 kernels. This result has been replicated in 20 well-known deep-learning models (AlexNet, ResNet, VGG, DenseNet, etc.) running on four architectures: an AMD Ryzen 7 (x86), an NVIDIA A100 tensor core, an NVIDIA RTX 3080 GPU, and an ARM A64FX. A patch with this combined approach was approved in Ansor in February 2024. As evidence of the generality of this search methodology, a similar patch, achieving equally good results, was submitted to TVM's MetaSchedule in June 2024.
- Abstract(参考訳): 機械学習モデルは、テンソルに演算を適用するアルゴリズム(自然数の線形結合でインデックス付けされたデータ)で構成されている。カーネルの例としては、畳み込み、転置、ベクトル積がある。カーネルを実装するには多くの方法がある。これらの実装はカーネルの最適化空間を形成している。カーネルスケジューリングは、目的関数(典型的には実行速度)から最高の実装を見つける問題である。
Ansor、Halide、AutoTVMといったカーネルオプティマイザは、探索とエクスプロイトという2つのフェーズを組み合わせた探索ヒューリスティックによってこの問題を解決する。
最初のステップは、多くの異なるカーネル最適化空間を評価する。
後者は、同じ空間内のカーネルを調査することで、最高の実装の改善を試みる。
例えば、Ansorはスケッチを通じてカーネル生成を組み合わせて探索し、進化的アルゴリズムを利用して最良のスケッチを利用する。
本研究では,オートTVMアルゴリズムであるDroplet SearchをAnsorの探索フェーズに組み込むことで,カーネルの品質を向上しつつ,Ansorの検索時間を短縮する可能性を実証する。
このアプローチでは、Ansorによって探索されたサンプルの数を制限し、最適なものを選択し、座標降下アルゴリズムでそれを利用する。
このアプローチを、Ansorが生成する最初の300のカーネルに適用することで、通常、Ansorが10,000のカーネルを解析した場合よりも少ない時間でより良いカーネルを得ることができます。
この結果は、AMD Ryzen 7 (x86)、NVIDIA A100テンソルコア、NVIDIA RTX 3080 GPU、ARM A64FXの4つのアーキテクチャで動作する20の有名なディープラーニングモデル(AlexNet、ResNet、VGG、DenseNetなど)で再現されている。
この組み合わせのアプローチは2024年2月にアンソールで承認された。
この手法の汎用性を示す証拠として,2024年6月にTVMのMetaScheduleに同様のパッチが提出された。
関連論文リスト
- Optimal Kernel Orchestration for Tensor Programs with Korch [13.143585283794902]
カーネルオーケストレーションは、ディープニューラルネットワーク(DNN)のさまざまなオペレータで定義された計算を、現代的なハードウェアプラットフォーム上でGPUカーネルの実行にマッピングするタスクである。
本稿では,テンソルプログラムのための最適なカーネルオーケストレーション戦略を発見するプログラムであるKorchを提案する。
論文 参考訳(メタデータ) (2024-06-13T04:44:38Z) - Optimal Kernel Tuning Parameter Prediction using Deep Sequence Models [0.44998333629984877]
本稿では,深部列列列モデルを用いて,計算カーネルを管理する最適チューニングパラメータを予測する手法を提案する。
提案アルゴリズムは、AMD機械学習プリミティブライブラリであるMIOpenにおいて、様々な畳み込みカーネル上で90%以上の精度を達成することができる。
論文 参考訳(メタデータ) (2024-04-15T22:25:54Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Lifelong Bandit Optimization: No Prior and No Regret [70.94238868711952]
我々は,過去の経験から学習することで環境に適応するアルゴリズムであるLIBOを開発した。
カーネルが未知だが、すべてのタスク間で共有されるカーネル構造を仮定する。
我々のアルゴリズムは、任意のカーネル化または線形バンディットアルゴリズムと組み合わせて、最適な性能を保証できる。
論文 参考訳(メタデータ) (2022-10-27T14:48:49Z) - Structural Kernel Search via Bayesian Optimization and Symbolical
Optimal Transport [5.1672267755831705]
ガウスのプロセスでは、カーネルの選択は重要なタスクであり、しばしば専門家が手動で行う。
本稿では,カーネル空間を包含する新しい効率的な探索法を提案する。
論文 参考訳(メタデータ) (2022-10-21T09:30:21Z) - Learning "best" kernels from data in Gaussian process regression. With
application to aerodynamics [0.4588028371034406]
本稿では,ガウス過程の回帰/クリギングサロゲートモデリング手法におけるカーネルの選択/設計アルゴリズムを紹介する。
アルゴリズムの最初のクラスはカーネルフローであり、機械学習の分類の文脈で導入された。
アルゴリズムの第2のクラスはスペクトル核リッジ回帰と呼ばれ、近似される関数のノルムが最小となるような「最良の」カーネルを選択することを目的としている。
論文 参考訳(メタデータ) (2022-06-03T07:50:54Z) - Fast Sketching of Polynomial Kernels of Polynomial Degree [61.83993156683605]
他のカーネルはしばしばテイラー級数展開を通じてカーネルによって近似されるので、カーネルは特に重要である。
スケッチの最近の技術は、カーネルの$q$という難解な程度に実行時間に依存することを減らしている。
我々は、この実行時間を大幅に改善する新しいスケッチを、先頭の注文項で$q$への依存を取り除くことで提供します。
論文 参考訳(メタデータ) (2021-08-21T02:14:55Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Ansor: Generating High-Performance Tensor Programs for Deep Learning [45.437816016043534]
ディープラーニングアプリケーションのためのテンソルプログラム生成フレームワークAnsorを提案する。
Ansorは、探索空間の階層的な表現からプログラムをサンプリングすることで、多くの最適化の組み合わせを探索する。
Ansorは、既存の最先端アプローチの検索空間外にある高性能プログラムを見つけることができる。
論文 参考訳(メタデータ) (2020-06-11T19:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。