Fugu-MT 論文翻訳(概要): PowerFusion: A Tensor Compiler with Explicit Data Movement Description and Instruction-level Graph IR

論文の概要: PowerFusion: A Tensor Compiler with Explicit Data Movement Description and Instruction-level Graph IR

arxiv url: http://arxiv.org/abs/2307.04995v1
Date: Tue, 11 Jul 2023 03:17:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-12 16:33:28.959487
Title: PowerFusion: A Tensor Compiler with Explicit Data Movement Description and Instruction-level Graph IR
Title（参考訳）: PowerFusion: 明示的なデータ移動記述とインストラクションレベルのグラフIRを備えたテンソルコンパイラ
Authors: Zixuan Ma, Haojie Wang, Jingze Xing, Liyan Zheng, Chen Zhang, Huanqi Cao, Kezhao Huang, Shizhi Tang, Penghan Wang and Jidong Zhai
Abstract要約: 本稿では,メモリ集約演算子のための高性能コードを生成するテンソルコンパイラであるIntelliGenを提案する。 IntelliGenは計算とデータ移動の最適化の両方を考慮する。 NVIDIA GPU、AMD GPU、Cambricon MLU上でIntelliGenを評価し、平均で1.97x、2.93x、16.91x(1.28x、1.23x、2.31x)までスピードアップした。
参考スコア（独自算出の注目度）: 10.059491353103526
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep neural networks (DNNs) are of critical use in different domains. To accelerate DNN computation, tensor compilers are proposed to generate efficient code on different domain-specific accelerators. Existing tensor compilers mainly focus on optimizing computation efficiency. However, memory access is becoming a key performance bottleneck because the computational performance of accelerators is increasing much faster than memory performance. The lack of direct description of memory access and data dependence in current tensor compilers' intermediate representation (IR) brings significant challenges to generate memory-efficient code. In this paper, we propose IntelliGen, a tensor compiler that can generate high-performance code for memory-intensive operators by considering both computation and data movement optimizations. IntelliGen represent a DNN program using GIR, which includes primitives indicating its computation, data movement, and parallel strategies. This information will be further composed as an instruction-level dataflow graph to perform holistic optimizations by searching different memory access patterns and computation operations, and generating memory-efficient code on different hardware. We evaluate IntelliGen on NVIDIA GPU, AMD GPU, and Cambricon MLU, showing speedup up to 1.97x, 2.93x, and 16.91x(1.28x, 1.23x, and 2.31x on average), respectively, compared to current most performant frameworks.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)は、異なるドメインで重要な用途である。 DNN計算を高速化するために、異なるドメイン固有のアクセラレーター上で効率的なコードを生成するためにテンソルコンパイラを提案する。既存のテンソルコンパイラは主に計算効率の最適化に重点を置いている。しかし、アクセラレーションの計算性能がメモリ性能よりもはるかに速くなっているため、メモリアクセスが重要なパフォーマンスボトルネックになっている。現在のテンソルコンパイラの中間表現(ir)におけるメモリアクセスとデータ依存の直接記述の欠如は、メモリ効率のよいコードを生成する上で大きな課題をもたらす。本稿では,計算とデータ移動の最適化を両立させて,メモリ集約演算子の高性能コードを生成するテンソルコンパイラintelligenを提案する。 IntelliGenは、計算、データ移動、並列戦略を示すプリミティブを含むGIRを使ったDNNプログラムを表す。この情報は命令レベルのデータフローグラフとして構成され、異なるメモリアクセスパターンと計算操作を検索し、異なるハードウェア上でメモリ効率の良いコードを生成することにより、総合的な最適化を行う。 NVIDIA GPU,AMD GPU,Cambricon MLUでIntelliGenを評価し,現在のパフォーマンスフレームワークと比較して,それぞれ1.97x,2.93x,16.91x(1.28x,1.23x,2.31x)のスピードアップを示した。

関連論文リスト

HyperOffload: Graph-Driven Hierarchical Memory Management for Large Language Models on SuperNode Architectures [20.525243835887558]
SuperNodeは、コンパイラ内のキャッシュ演算子を使用したデータ移動を表す。私たちは、本番のディープラーニングフレームワークMindSporeにSuperNodeを実装しています。 SuperNodeは、エンドツーエンドのパフォーマンスを維持しながら、推論のピークデバイスメモリ使用量を最大26%削減することを示す。
論文参考訳（メタデータ） (2026-01-31T14:29:13Z)
Dato: A Task-Based Programming Model for Dataflow Accelerators [13.87015257740592]
データフローアクセラレーターのためのPython組み込みタスクベースのプログラミングモデルであるDatoを紹介する。 Datoはデータ通信とシャーディングをファーストクラスのコンストラクトに高める。 Datoは高いパフォーマンスを実現し、最適化されたコードを書くことの負担を大幅に削減します。
論文参考訳（メタデータ） (2025-09-08T15:22:51Z)
Tilus: A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving [12.068287973463786]
Serving Large Language Models (LLMs) はAIを利用したアプリケーションには必須だが、かなりの計算資源を必要とする。低精度の計算が資源消費を減らしながら効率を向上する鍵となる技術として登場した。低精度カーネルを生成するための既存のアプローチは、2つのパワーを持つウェイトビット幅に限られている。
論文参考訳（メタデータ） (2025-04-17T14:45:03Z)
An Efficient Sparse Kernel Generator for O(3)-Equivariant Deep Networks [0.5737287537823071]
回転同変グラフニューラルネットワークは、空間深層学習タスクにおける最先端の性能を得る。クレーブシュ=ゴルドンテンソル積(Clebsch-Gordon tensor product, CG)は、2つの高次特徴ベクトルと高度に構造化されたスパーステンソルを交換して高密度出力ベクトルを生成するカーネルである。我々は,CGテンソル製品用のGPUスパースカーネルジェネレータを導入し,既存のオープンソース実装とクローズドソース実装の大幅な高速化を実現した。
論文参考訳（メタデータ） (2025-01-23T08:20:47Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Accel-GCN: High-Performance GPU Accelerator Design for Graph Convolution Networks [12.181052673940465]
グラフ畳み込みネットワーク(GCN)は、様々な領域にわたるグラフデータから潜伏情報を抽出する上で重要である。本稿では,GCNのためのGPUアクセラレータアーキテクチャであるAccel-GCNを紹介する。 18のベンチマークグラフに対するAccel-GCNの評価では、cuSPARSE、GNNAdvisor、Graph-BLASTをそれぞれ1.17倍、1.86倍、2.94倍で上回っている。
論文参考訳（メタデータ） (2023-08-22T23:12:17Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
HDCC: A Hyperdimensional Computing compiler for classification on embedded systems and high-performance computing [58.720142291102135]
この研究は、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである、ネームコンパイラを紹介している。 nameは現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。
論文参考訳（メタデータ） (2023-04-24T19:16:03Z)
oneDNN Graph Compiler: A Hybrid Approach for High-Performance Deep Learning Compilation [8.64220475114214]
oneDNN Graph Compilerは、コンパイラ最適化とエキスパートチューニングされたカーネルの両方のテクニックをハイパフォーマンスコード生成に使用するためのハイブリッドアプローチを採用している。実験結果から,既存のテンソルコンパイラやプリミティブライブラリよりも高い性能を示した。
論文参考訳（メタデータ） (2023-01-03T19:52:17Z)
Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文参考訳（メタデータ） (2021-04-16T09:54:30Z)
DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。 4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文参考訳（メタデータ） (2021-04-14T08:46:35Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)
TFApprox: Towards a Fast Emulation of DNN Approximate Hardware Accelerators on GPU [0.4817429789586127]
近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。 DNNアクセラレータのソフトウェアエミュレーションは通常、CPUまたはGPU上で実行される。このエミュレーションは通常、ソフトウェアDNN実装のエミュレーションよりも2～3桁遅い。
論文参考訳（メタデータ） (2020-02-21T08:22:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。