論文の概要: INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing
- arxiv url: http://arxiv.org/abs/2308.05930v1
- Date: Fri, 11 Aug 2023 04:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 15:03:09.135353
- Title: INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing
- Title(参考訳): INR-Arch:入射ニューラル表現処理における任意次勾配計算のためのデータフローアーキテクチャとコンパイラ
- Authors: Stefan Abi-Karam, Rishov Sarkar, Dejia Xu, Zhiwen Fan, Zhangyang Wang,
Cong Hao
- Abstract要約: 計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
- 参考スコア(独自算出の注目度): 66.00729477511219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An increasing number of researchers are finding use for nth-order gradient
computations for a wide variety of applications, including graphics,
meta-learning (MAML), scientific computing, and most recently, implicit neural
representations (INRs). Recent work shows that the gradient of an INR can be
used to edit the data it represents directly without needing to convert it back
to a discrete representation. However, given a function represented as a
computation graph, traditional architectures face challenges in efficiently
computing its nth-order gradient due to the higher demand for computing power
and higher complexity in data movement. This makes it a promising target for
FPGA acceleration. In this work, we introduce INR-Arch, a framework that
transforms the computation graph of an nth-order gradient into a
hardware-optimized dataflow architecture. We address this problem in two
phases. First, we design a dataflow architecture that uses FIFO streams and an
optimized computation kernel library, ensuring high memory efficiency and
parallel computation. Second, we propose a compiler that extracts and optimizes
computation graphs, automatically configures hardware parameters such as
latency and stream depths to optimize throughput, while ensuring deadlock-free
operation, and outputs High-Level Synthesis (HLS) code for FPGA implementation.
We utilize INR editing as our benchmark, presenting results that demonstrate
1.8-4.8x and 1.5-3.6x speedup compared to CPU and GPU baselines respectively.
Furthermore, we obtain 3.1-8.9x and 1.7-4.3x lower memory usage, and 1.7-11.3x
and 5.5-32.8x lower energy-delay product. Our framework will be made
open-source and available on GitHub.
- Abstract(参考訳): 多くの研究者が、グラフィックス、メタラーニング(maml)、科学計算、そして最近では暗黙的神経表現(inr)など、幅広い応用において、n次勾配計算の利用を見出している。
最近の研究は、INRの勾配を使って直接表現するデータを個別の表現に戻すことなく編集できることを示している。
しかし、計算グラフとして表される関数を考えると、従来のアーキテクチャは計算能力の増大とデータ移動の複雑さの増大により、n階勾配を効率的に計算する上で困難に直面している。
これによりFPGAアクセラレーションの有望なターゲットとなる。
本研究では,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークであるINR-Archを紹介する。
この問題を2段階に分けて解決する。
まず,fifoストリームと最適化された計算カーネルライブラリを用いたデータフローアーキテクチャを設計し,高いメモリ効率と並列計算を実現する。
第2に,計算グラフを抽出・最適化し,遅延やストリーム深さなどのハードウェアパラメータを自動的に設定してスループットを最適化し,デッドロックフリーな動作を保証し,fpga実装のための高レベル合成(hls)コードを出力するコンパイラを提案する。
InR編集をベンチマークとして使用し,CPUおよびGPUベースラインと比較して1.8-4.8xと1.5-3.6xの高速化を示した。
さらに, 3.1-8.9x と 1.7-4.3x のメモリ使用量, 1.7-11.3x と 5.5-32.8x の省エネルギー製品を得る。
私たちのフレームワークはオープンソースにされ、githubで利用可能になります。
関連論文リスト
- High Performance Computing Applied to Logistic Regression: A CPU and GPU
Implementation Comparison [0.0]
汎用GPUによるロジスティック回帰(LR)の並列バージョンを提案する。
我々の実装は、X. Zouらによって提案された並列なグラディエントDescent Logistic Regressionアルゴリズムの直接変換である。
本手法は,画像認識,スパム検出,不正検出などのリアルタイム予測に特に有用である。
論文 参考訳(メタデータ) (2023-08-19T14:49:37Z) - PowerFusion: A Tensor Compiler with Explicit Data Movement Description
and Instruction-level Graph IR [10.059491353103526]
本稿では,メモリ集約演算子のための高性能コードを生成するテンソルコンパイラであるIntelliGenを提案する。
IntelliGenは計算とデータ移動の最適化の両方を考慮する。
NVIDIA GPU、AMD GPU、Cambricon MLU上でIntelliGenを評価し、平均で1.97x、2.93x、16.91x(1.28x、1.23x、2.31x)までスピードアップした。
論文 参考訳(メタデータ) (2023-07-11T03:17:40Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - GraphACT: Accelerating GCN Training on CPU-FPGA Heterogeneous Platforms [1.2183405753834562]
グラフ畳み込みネットワーク(GCN)は、グラフ上での表現学習のための最先端のディープラーニングモデルとして登場した。
実質的かつ不規則なデータ通信のため、GCNの訓練を加速することは困難である。
我々はCPU-FPGAヘテロジニアスシステム上でGCNをトレーニングするための新しいアクセラレータを設計する。
論文 参考訳(メタデータ) (2019-12-31T21:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。