論文の概要: AsyncTaichi: Whole-Program Optimizations for Megakernel Sparse
Computation and Differentiable Programming
- arxiv url: http://arxiv.org/abs/2012.08141v1
- Date: Tue, 15 Dec 2020 08:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:13:24.892919
- Title: AsyncTaichi: Whole-Program Optimizations for Megakernel Sparse
Computation and Differentiable Programming
- Title(参考訳): AsyncTaichi: Megakernelスパース計算と微分プログラミングのための全プログラム最適化
- Authors: Yuanming Hu, Mingkuan Xu, Ye Kuang, Fr\'edo Durand
- Abstract要約: 我々は,taichiプログラミング言語のための全プログラム最適化フレームワークを提案する。
我々の新しいシステムは、より少ないカーネルのローンチと、スパースグリッドの物理シミュレーションや微分可能なプログラミングを含むベンチマークのスピードアップに繋がる3.07~3.90Times$1.73~2.76times$をもたらす。
- 参考スコア(独自算出の注目度): 4.771573299975119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a whole-program optimization framework for the Taichi programming
language. As an imperative language tailored for sparse and differentiable
computation, Taichi's unique computational patterns lead to attractive
optimization opportunities that do not present in other compiler or runtime
systems. For example, to support iteration over sparse voxel grids, excessive
list generation tasks are often inserted. By analyzing sparse computation
programs at a higher level, our optimizer is able to remove the majority of
unnecessary list generation tasks. To provide maximum programming flexibility,
our optimization system conducts on-the-fly optimization of the whole
computational graph consisting of Taichi kernels. The optimized Taichi kernels
are then just-in-time compiled in parallel, and dispatched to parallel devices
such as multithreaded CPU and massively parallel GPUs. Without any code
modification on Taichi programs, our new system leads to $3.07 - 3.90\times$
fewer kernel launches and $1.73 - 2.76\times$ speed up on our benchmarks
including sparse-grid physical simulation and differentiable programming.
- Abstract(参考訳): 我々は,taichiプログラミング言語のための全プログラム最適化フレームワークを提案する。
スパースで微分可能な計算に適した命令型言語として、Taichiのユニークな計算パターンは、他のコンパイラやランタイムシステムには存在しない魅力的な最適化機会をもたらす。
例えば、スパースなvoxelグリッド上のイテレーションをサポートするために、過剰なリスト生成タスクがしばしば挿入される。
スパース計算プログラムを高いレベルで解析することにより、オプティマイザは不要なリスト生成タスクの大部分を取り除くことができる。
プログラミングの柔軟性を最大化するために,太一カーネルからなる計算グラフ全体のオンザフライ最適化を行う。
最適化されたtaichiカーネルはジャストインタイムで並列にコンパイルされ、マルチスレッドcpuや超並列gpuなどの並列デバイスにディスパッチされる。
taichiプログラムのコード修正がなければ、新しいシステムは3.07~3.90\times$のカーネル起動を少なくし、1.73~2.76\times$のスピードアップを実現します。
関連論文リスト
- Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Enabling Multi-threading in Heterogeneous Quantum-Classical Programming
Models [53.937052213390736]
量子カーネルの並列実行を可能にするために,C++ベースの並列コンストラクトを導入する。
予備的な性能の結果は、カーネル毎に12スレッドのベルカーネルを2回実行し、カーネルを次々に実行する並列性能が向上したことを示している。
論文 参考訳(メタデータ) (2023-01-27T06:48:37Z) - TorchOpt: An Efficient Library for Differentiable Optimization [15.910740751308973]
異なる最適化アルゴリズムは異なる実行パターンを示す。
既存の差別化可能な最適化ライブラリは、効率的なアルゴリズム開発をサポートできない。
本稿では,PyTorchをベースとした,微分可能な最適化のための効率的なライブラリであるTorchOptを紹介する。
論文 参考訳(メタデータ) (2022-11-13T15:59:17Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Implementation of Parallel Simplified Swarm Optimization in CUDA [2.322689362836168]
最適化コンピューティングでは、インテリジェントなSwarmアルゴリズム(SIAs)が並列化に適している。
本稿では,計算能力と汎用性を考慮したGPUに基づくSimplified Swarm Algorithm Optimization (PSSO)を提案する。
結果から,Nの次数による時間複雑性の低減が達成され,資源プリエンプションの問題は完全に回避された。
論文 参考訳(メタデータ) (2021-10-01T00:15:45Z) - Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。
我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文 参考訳(メタデータ) (2021-09-28T05:33:21Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Systolic Computing on GPUs for Productive Performance [2.8064596842326575]
我々は,GPU上で動作する高性能なシストリックアレイを生産的に構築する言語とコンパイラを提案する。
プログラマは、データフローのプロジェクションを線形シストリック配列に指定し、プロジェクションの詳細な実装はコンパイラに任せる。
コンパイラは指定されたプロジェクションを実装し、リニアシストリックアレイをGPUのSIMD実行ユニットとベクトルレジスタにマッピングする。
論文 参考訳(メタデータ) (2020-10-29T18:49:54Z) - Accelerating Sparse DNN Models without Hardware-Support via Tile-Wise
Sparsity [12.643043455369297]
本稿では,既存の高密度アーキテクチャ上での遅延高速化を実現するアルゴリズム-ソフトウェア共設計プルーニング手法を提案する。
我々はGPUテンソルコア上でのスパーシティパターンの実装と評価を行い,高密度モデル上での1.95倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-08-29T16:27:41Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。