Fugu-MT 論文翻訳(概要): Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs

論文の概要: Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs

arxiv url: http://arxiv.org/abs/2403.17607v1
Date: Tue, 26 Mar 2024 11:38:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 15:47:16.892957
Title: Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs
Title（参考訳）: Intel Data Center GPUにおける完全融合マルチ層パーセプトロン
Authors: Kai Yuan, Christoph Bauinger, Xiangyi Zhang, Pascal Baehr, Matthias Kirchhart, Darius Dabert, Adrien Tousnakhoff, Pierre Boudier, Michael Paulitsch,
Abstract要約: 本稿では,Intel Data Center GPU Max 1550用のMulti-formedLayer Perceptrons(MLP)の実装について述べる。これにより算術強度が大幅に向上し,特に推論性能が向上することを示す。
参考スコア（独自算出の注目度）: 3.7101665559244874
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a SYCL implementation of Multi-Layer Perceptrons (MLPs), which targets and is optimized for the Intel Data Center GPU Max 1550. To increase the performance, our implementation minimizes the slow global memory accesses by maximizing the data reuse within the general register file and the shared local memory by fusing the operations in each layer of the MLP. We show with a simple roofline model that this results in a significant increase in the arithmetic intensity, leading to improved performance, especially for inference. We compare our approach to a similar CUDA implementation for MLPs and show that our implementation on the Intel Data Center GPU outperforms the CUDA implementation on Nvidia's H100 GPU by a factor up to 2.84 in inference and 1.75 in training. The paper also showcases the efficiency of our SYCL implementation in three significant areas: Image Compression, Neural Radiance Fields, and Physics-Informed Machine Learning. In all cases, our implementation outperforms the off-the-shelf Intel Extension for PyTorch (IPEX) implementation on the same Intel GPU by up to a factor of 30 and the CUDA PyTorch version on Nvidia's H100 GPU by up to a factor 19. The code can be found at https://github.com/intel/tiny-dpcpp-nn.
Abstract（参考訳）: 本稿では,Multi-Layer Perceptrons(MLP)のSYCL実装について述べる。本実装では,MLPの各層に演算を融合させることで,汎用レジスタファイルと共有ローカルメモリ内のデータ再利用を最大化することにより,グローバルメモリアクセスの遅さを最小化する。単純な屋上モデルを用いて、演算強度が大幅に増加し、特に推論において性能が向上することを示す。 MLPのCUDA実装と同じようなアプローチを比較し、Intel Data Center GPUの実装はNvidiaのH100 GPU上のCUDA実装を最大2.84の推論と1.75のトレーニングで上回っていることを示す。また、画像圧縮、ニューラルラジアンスフィールド、物理インフォームド機械学習の3つの重要な領域において、SYCLの実装の効率性を示す。あらゆるケースにおいて、当社の実装は、同じIntel GPU上の既製のIntel Extension for PyTorch(IPEX)実装を最大30倍、NvidiaのH100 GPU上のCUDA PyTorchバージョンを最大19倍に上回ります。コードはhttps://github.com/intel/tiny-dpcpp-nnで見ることができる。

関連論文リスト

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。 AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文参考訳（メタデータ） (2026-02-27T18:58:05Z)
GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions [54.570944939061555]
本稿では,GPU加速グラフに基づくベクトル探索アルゴリズムについて包括的に研究する。我々は、GPU最適化戦略の詳細な分類を確立し、アルゴリズムタスクとハードウェア実行ユニット間のマッピングを明確にする。我々の発見は、スケーラブルで堅牢なGPUベースの近接検索システムを設計するための明確なガイドラインを提供する。
論文参考訳（メタデータ） (2026-02-10T16:18:04Z)
GaDE -- GPU-acceleration of time-dependent Dirac Equation for exascale [0.0]
GaDEは相対論的状態における電磁場によって誘起される原子の電子動力学をシミュレートするように設計されている。 AMD MI250X GPU と Hewlett-Packard の Slingshot 相互接続を用いた LUMI による GaDE の評価を行った。
論文参考訳（メタデータ） (2025-12-25T14:47:36Z)
Scalable GPU-Accelerated Euler Characteristic Curves: Optimization and Differentiable Learning for PyTorch [0.0]
我々は,Euler Characteristics Curve(ECC)向けに最適化されたGPUカーネルを提案し,合成グリッド上でのGPU実装よりも16-2000"Oの高速化を実現した。エンドツーエンドの学習を可能にする差別化可能なPyTorch層を導入する。
論文参考訳（メタデータ） (2025-10-23T06:59:07Z)
GPU-Accelerated Interpretable Generalization for Rapid Cyberattack Detection and Forensics [0.0]
IGメカニズムは最近IEEE Transactions on Information Forensics and Securityで公開され、最先端のエビデンスベースの侵入検知を提供する。我々は、PyTorchの再設計であるIG-GPUを紹介し、すべてのペアの交叉とサブセット評価をコモディティGPUにオフロードする。 15kレコードのNSL-KDDデータセットでは、IG-GPUはIGのマルチコアCPU実装よりも116倍のスピードアップを示している。
論文参考訳（メタデータ） (2025-07-16T12:38:19Z)
Libra: Synergizing CUDA and Tensor Cores for High-Performance Sparse Matrix Multiplication [6.557224606759151]
現代の加速器は一般にスパース演算子を加速するコアとコアを備えている。資源を1つだけ利用すれば,それぞれの制限のため,スパース行列乗算の性能が劣ることを示す。本稿では,2.9コアの高性能とコアの低冗長性を両立させて,タスクマッピング演算子のスイートポイントを求める2D対応のワークロード計算戦略を提案する。
論文参考訳（メタデータ） (2025-06-28T01:50:13Z)
Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文参考訳（メタデータ） (2024-07-29T00:14:10Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Performance Evaluation and Acceleration of the QTensor Quantum Circuit Simulator on GPUs [6.141912076989479]
我々は、NumPy、PyTorch、CuPyのバックエンドを実装し、ベンチマークを行い、CPUまたはGPUにテンソルシミュレーションの最適な割り当てを見つける。ベンチマークしたQAOA回路のCPU上のNumPyベースライン上でのGPUの高速化により,MaxCut問題を解く。
論文参考訳（メタデータ） (2022-04-12T19:03:44Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文参考訳（メタデータ） (2022-02-19T03:49:21Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文参考訳（メタデータ） (2021-04-16T09:54:30Z)
At-Scale Sparse Deep Neural Network Inference with Efficient GPU Implementation [24.824295164938604]
本稿では,Sparse Deep Neural Network Challenge 2020の推論モデルに対するGPU性能の最適化とスケーリング結果について述べる。スパースディープニューラルネットワーク(SpDNN)は、大規模なニューラルネットワークのメモリフットプリントを制御することを約束している。本研究では,ReLU関数と融合したスパース行列乗算カーネルを提案する。
論文参考訳（メタデータ） (2020-07-28T12:09:43Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。