論文の概要: Ansor: Generating High-Performance Tensor Programs for Deep Learning
- arxiv url: http://arxiv.org/abs/2006.06762v5
- Date: Sun, 15 Oct 2023 07:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 23:40:19.270086
- Title: Ansor: Generating High-Performance Tensor Programs for Deep Learning
- Title(参考訳): Ansor: ディープラーニングのための高性能テンソルプログラムの生成
- Authors: Lianmin Zheng, Chengfan Jia, Minmin Sun, Zhao Wu, Cody Hao Yu, Ameer
Haj-Ali, Yida Wang, Jun Yang, Danyang Zhuo, Koushik Sen, Joseph E. Gonzalez,
Ion Stoica
- Abstract要約: ディープラーニングアプリケーションのためのテンソルプログラム生成フレームワークAnsorを提案する。
Ansorは、探索空間の階層的な表現からプログラムをサンプリングすることで、多くの最適化の組み合わせを探索する。
Ansorは、既存の最先端アプローチの検索空間外にある高性能プログラムを見つけることができる。
- 参考スコア(独自算出の注目度): 45.437816016043534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-performance tensor programs are crucial to guarantee efficient execution
of deep neural networks. However, obtaining performant tensor programs for
different operators on various hardware platforms is notoriously challenging.
Currently, deep learning systems rely on vendor-provided kernel libraries or
various search strategies to get performant tensor programs. These approaches
either require significant engineering effort to develop platform-specific
optimization code or fall short of finding high-performance programs due to
restricted search space and ineffective exploration strategy.
We present Ansor, a tensor program generation framework for deep learning
applications. Compared with existing search strategies, Ansor explores many
more optimization combinations by sampling programs from a hierarchical
representation of the search space. Ansor then fine-tunes the sampled programs
with evolutionary search and a learned cost model to identify the best
programs. Ansor can find high-performance programs that are outside the search
space of existing state-of-the-art approaches. In addition, Ansor utilizes a
task scheduler to simultaneously optimize multiple subgraphs in deep neural
networks. We show that Ansor improves the execution performance of deep neural
networks relative to the state-of-the-art on the Intel CPU, ARM CPU, and NVIDIA
GPU by up to $3.8\times$, $2.6\times$, and $1.7\times$, respectively.
- Abstract(参考訳): 高性能テンソルプログラムは、ディープニューラルネットワークの効率的な実行を保証するために不可欠である。
しかし、様々なハードウェアプラットフォーム上で異なる演算子に対してパフォーマンステンソルプログラムを取得することは、非常に難しい。
現在、ディープラーニングシステムはベンダーが提供するカーネルライブラリや様々な検索戦略に頼っている。
これらのアプローチは、プラットフォーム固有の最適化コードを開発するための重要なエンジニアリングの努力を必要とするか、あるいは検索スペースの制限と非効率的な探索戦略のために高性能なプログラムを見つけられなかった。
本稿では,ディープラーニングアプリケーションのためのテンソルプログラム生成フレームワークansorを提案する。
既存の検索戦略と比較して、Ansorは検索空間の階層的な表現からプログラムをサンプリングすることで、多くの最適化の組み合わせを探索する。
ansorはサンプルプログラムを進化的探索と学習コストモデルで微調整し、最適なプログラムを識別する。
Ansorは、既存の最先端アプローチの検索空間外にある高性能プログラムを見つけることができる。
さらに、ansorはタスクスケジューラを使用して、ディープニューラルネットワークで複数のサブグラフを同時に最適化する。
我々は、AnsorがIntel CPU、ARM CPU、NVIDIA GPUの最先端技術に対するディープニューラルネットワークの実行性能を最大3.8\times$、2.6\times$、1.7\times$で改善していることを示す。
関連論文リスト
- Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent [48.791943145735]
カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。
このアプローチを、Ansorが生成した最初の300のカーネルに適用する。
この結果は20の有名なディープラーニングモデルで再現されている。
論文 参考訳(メタデータ) (2024-06-28T16:34:22Z) - HARL: Hierarchical Adaptive Reinforcement Learning Based Auto Scheduler
for Neural Networks [51.71682428015139]
効率的なテンソルプログラム探索のための強化学習に基づく自動スケジューリングシステムであるHARLを提案する。
HarLは、最先端のオートスケジューラと比較して、テンソル演算子の性能を22%改善し、探索速度を4.3倍改善する。
また、エンドツーエンドのニューラルネットワークでは、推論性能と探索速度も大幅に向上する。
論文 参考訳(メタデータ) (2022-11-21T04:15:27Z) - Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs [11.338285393619042]
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。
提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
論文 参考訳(メタデータ) (2022-10-18T05:32:13Z) - Towards making the most of NLP-based device mapping optimization for
OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。
ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。
実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文 参考訳(メタデータ) (2022-08-30T10:20:55Z) - CrossBeam: Learning to Search in Bottom-Up Program Synthesis [51.37514793318815]
ボトムアップ合成のためのハンズオン検索ポリシーを学習するためのニューラルネットワークのトレーニングを提案する。
私たちのアプローチは、CrossBeamと呼ばれ、ニューラルモデルを使用して、以前に探索されたプログラムを新しいプログラムに組み合わせる方法を選択します。
我々はCrossBeamが効率的に検索することを学び、最先端技術と比較してプログラム空間のより小さな部分を探索する。
論文 参考訳(メタデータ) (2022-03-20T04:41:05Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z) - Towards High Performance Java-based Deep Learning Frameworks [0.22940141855172028]
現代のクラウドサービスは、高速で効率的なデータ処理の需要を定めている。
この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。
本稿では、JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化する最先端のプログラミングフレームワークであるTornadoVMを採用しました。
論文 参考訳(メタデータ) (2020-01-13T13:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。