Fugu-MT 論文翻訳(概要): AsyncTaichi: Whole-Program Optimizations for Megakernel Sparse Computation and Differentiable Programming

論文の概要: AsyncTaichi: Whole-Program Optimizations for Megakernel Sparse Computation and Differentiable Programming

arxiv url: http://arxiv.org/abs/2012.08141v1
Date: Tue, 15 Dec 2020 08:09:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-07 05:13:24.892919
Title: AsyncTaichi: Whole-Program Optimizations for Megakernel Sparse Computation and Differentiable Programming
Title（参考訳）: AsyncTaichi: Megakernelスパース計算と微分プログラミングのための全プログラム最適化
Authors: Yuanming Hu, Mingkuan Xu, Ye Kuang, Fr\'edo Durand
Abstract要約: 我々は,taichiプログラミング言語のための全プログラム最適化フレームワークを提案する。我々の新しいシステムは、より少ないカーネルのローンチと、スパースグリッドの物理シミュレーションや微分可能なプログラミングを含むベンチマークのスピードアップに繋がる3.07～3.90Times$1.73～2.76times$をもたらす。
参考スコア（独自算出の注目度）: 4.771573299975119
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a whole-program optimization framework for the Taichi programming language. As an imperative language tailored for sparse and differentiable computation, Taichi's unique computational patterns lead to attractive optimization opportunities that do not present in other compiler or runtime systems. For example, to support iteration over sparse voxel grids, excessive list generation tasks are often inserted. By analyzing sparse computation programs at a higher level, our optimizer is able to remove the majority of unnecessary list generation tasks. To provide maximum programming flexibility, our optimization system conducts on-the-fly optimization of the whole computational graph consisting of Taichi kernels. The optimized Taichi kernels are then just-in-time compiled in parallel, and dispatched to parallel devices such as multithreaded CPU and massively parallel GPUs. Without any code modification on Taichi programs, our new system leads to $3.07 - 3.90\times$ fewer kernel launches and $1.73 - 2.76\times$ speed up on our benchmarks including sparse-grid physical simulation and differentiable programming.
Abstract（参考訳）: 我々は,taichiプログラミング言語のための全プログラム最適化フレームワークを提案する。スパースで微分可能な計算に適した命令型言語として、Taichiのユニークな計算パターンは、他のコンパイラやランタイムシステムには存在しない魅力的な最適化機会をもたらす。例えば、スパースなvoxelグリッド上のイテレーションをサポートするために、過剰なリスト生成タスクがしばしば挿入される。スパース計算プログラムを高いレベルで解析することにより、オプティマイザは不要なリスト生成タスクの大部分を取り除くことができる。プログラミングの柔軟性を最大化するために,太一カーネルからなる計算グラフ全体のオンザフライ最適化を行う。最適化されたtaichiカーネルはジャストインタイムで並列にコンパイルされ、マルチスレッドcpuや超並列gpuなどの並列デバイスにディスパッチされる。 taichiプログラムのコード修正がなければ、新しいシステムは3.07～3.90\times$のカーネル起動を少なくし、1.73～2.76\times$のスピードアップを実現します。

関連論文リスト

Morello: Compiling Fast Neural Networks with Dynamic Programming and Spatial Compression [5.995843028932167]
本稿では,大規模なプログラム仕様をより小さな仕様に分解することで,検索空間をより深く探求するための動的プログラミングに基づくアプローチを提案する。メモリ要求を減らすために,Z_geq 0$の座標で仕様をインデックス化し,同一の隣接解を圧縮する,新しいメモ表表現を用いる。
論文参考訳（メタデータ） (2025-05-03T00:14:31Z)
TileLang: A Composable Tiled Programming Model for AI Systems [17.240134151647187]
我々は、より効率的なAIプログラミングのための一般化タイルプログラミングモデルであるTileLangを紹介する。 TileLangはスケジューリングスペース(スレッドバインディング、レイアウト、テンソル化、パイプライン)をデータフローから切り離し、カスタマイズアノテーションとプリミティブのセットとしてカプセル化した。我々は、多くの実験において、一般的なデバイス上で包括的な実験を行い、キーカーネルでTileLangが最先端のパフォーマンスを達成できることを実証した。
論文参考訳（メタデータ） (2025-04-24T14:08:49Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Enabling Multi-threading in Heterogeneous Quantum-Classical Programming Models [53.937052213390736]
量子カーネルの並列実行を可能にするために,C++ベースの並列コンストラクトを導入する。予備的な性能の結果は、カーネル毎に12スレッドのベルカーネルを2回実行し、カーネルを次々に実行する並列性能が向上したことを示している。
論文参考訳（メタデータ） (2023-01-27T06:48:37Z)
TorchOpt: An Efficient Library for Differentiable Optimization [15.910740751308973]
異なる最適化アルゴリズムは異なる実行パターンを示す。既存の差別化可能な最適化ライブラリは、効率的なアルゴリズム開発をサポートできない。本稿では,PyTorchをベースとした,微分可能な最適化のための効率的なライブラリであるTorchOptを紹介する。
論文参考訳（メタデータ） (2022-11-13T15:59:17Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
Implementation of Parallel Simplified Swarm Optimization in CUDA [2.322689362836168]
最適化コンピューティングでは、インテリジェントなSwarmアルゴリズム(SIAs)が並列化に適している。本稿では,計算能力と汎用性を考慮したGPUに基づくSimplified Swarm Algorithm Optimization (PSSO)を提案する。結果から,Nの次数による時間複雑性の低減が達成され,資源プリエンプションの問題は完全に回避された。
論文参考訳（メタデータ） (2021-10-01T00:15:45Z)
Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文参考訳（メタデータ） (2021-09-28T05:33:21Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
Systolic Computing on GPUs for Productive Performance [2.8064596842326575]
我々は,GPU上で動作する高性能なシストリックアレイを生産的に構築する言語とコンパイラを提案する。プログラマは、データフローのプロジェクションを線形シストリック配列に指定し、プロジェクションの詳細な実装はコンパイラに任せる。コンパイラは指定されたプロジェクションを実装し、リニアシストリックアレイをGPUのSIMD実行ユニットとベクトルレジスタにマッピングする。
論文参考訳（メタデータ） (2020-10-29T18:49:54Z)
Accelerating Sparse DNN Models without Hardware-Support via Tile-Wise Sparsity [12.643043455369297]
本稿では,既存の高密度アーキテクチャ上での遅延高速化を実現するアルゴリズム-ソフトウェア共設計プルーニング手法を提案する。我々はGPUテンソルコア上でのスパーシティパターンの実装と評価を行い,高密度モデル上での1.95倍の高速化を実現した。
論文参考訳（メタデータ） (2020-08-29T16:27:41Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。