論文の概要: HadaCore: Tensor Core Accelerated Hadamard Transform Kernel
- arxiv url: http://arxiv.org/abs/2412.08832v1
- Date: Thu, 12 Dec 2024 00:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:31:33.665805
- Title: HadaCore: Tensor Core Accelerated Hadamard Transform Kernel
- Title(参考訳): HadaCore: Tensor Core Accelerated Hadamard Transform Kernel
- Authors: Krish Agarwal, Rishi Astra, Adnan Hoque, Mudhakar Srivatsa, Raghu Ganti, Less Wright, Sijia Chen,
- Abstract要約: HadaCore(ハダコア)は、最新のGPUハードウェアに存在するCoreのFWHT(Fast Walsh-Hadamard Transform)アルゴリズムである。
Nvidia A100とH100では、HadaCoreは1.1-1.4xと1.0-1.3xのスピードアップを達成した。
- 参考スコア(独自算出の注目度): 2.6699230340282796
- License:
- Abstract: We present HadaCore, a modified Fast Walsh-Hadamard Transform (FWHT) algorithm optimized for the Tensor Cores present in modern GPU hardware. HadaCore follows the recursive structure of the original FWHT algorithm, achieving the same asymptotic runtime complexity but leveraging a hardware-aware work decomposition that benefits from Tensor Core acceleration. This reduces bottlenecks from compute and data exchange. On Nvidia A100 and H100 GPUs, HadaCore achieves speedups of 1.1-1.4x and 1.0-1.3x, with a peak gain of 3.5x and 3.6x respectively, when compared to the existing state-of-the-art implementation of the original algorithm. We also show that when using FP16 or BF16, our implementation is numerically accurate, enabling comparable accuracy on MMLU benchmarks when used in an end-to-end Llama3 inference run with quantized (FP8) attention.
- Abstract(参考訳): 本稿では,最新のGPUハードウェアに存在するTensor Coreに最適化されたFWHTアルゴリズムであるHadaCoreを紹介する。
HadaCoreは、オリジナルのFWHTアルゴリズムの再帰的な構造に従い、同じ漸近的ランタイム複雑性を実現すると同時に、Tensor Coreアクセラレーションの恩恵を受けるハードウェア対応の作業分解を活用する。
これにより、計算とデータ交換のボトルネックが軽減される。
Nvidia A100とH100 GPUでは、HadaCoreは1.1-1.4xと1.0-1.3xのスピードアップを達成し、それぞれ3.5xと3.6xのピークゲインを達成している。
また、FP16やBF16を使用する場合、その実装は数値的に正確であり、量子化(FP8)されたLlama3推論の実行時にMMLUベンチマークと同等の精度が得られることを示す。
関連論文リスト
- An Efficient Sparse Kernel Generator for O(3)-Equivariant Deep Networks [0.5737287537823071]
回転同変グラフニューラルネットワークは、空間深層学習タスクにおける最先端の性能を得る。
クレーブシュ=ゴルドンテンソル積(Clebsch-Gordon tensor product, CG)は、2つの高次特徴ベクトルと高度に構造化されたスパーステンソルを交換して高密度出力ベクトルを生成するカーネルである。
我々は,CGテンソル製品用のGPUスパースカーネルジェネレータを導入し,既存のオープンソース実装とクローズドソース実装の大幅な高速化を実現した。
論文 参考訳(メタデータ) (2025-01-23T08:20:47Z) - Accelerating Sparse Graph Neural Networks with Tensor Core Optimization [0.0]
グラフセンスネットワーク(GNN)は、ソーシャルネットワーク、バイオインフォマティクス、計算、レコメンデーションシステムなどの分野に広く応用されている。
従来の計算手法は、GNNの性能要求を満たすには不十分である。
最近の研究では、CoresとCoresを使った並列アクセラレーションが検討されているが、大きな課題が続いている。
論文 参考訳(メタデータ) (2024-12-16T01:57:53Z) - 3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt [65.25603275491544]
3DGS-LM, 3D Gaussian Splatting(3DGS)の再構築を高速化する新しい手法を提案する。
提案手法は元の3DGSよりも30%高速で, 再現品質の最適化が可能である。
論文 参考訳(メタデータ) (2024-09-19T16:31:44Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - HEAT: A Highly Efficient and Affordable Training System for
Collaborative Filtering Based Recommendation on CPUs [11.007606356081435]
協調フィルタリング(CF)は推奨のための最も効果的な手法の1つであることが証明されている。
マルチコアCPUにSimpleXを最適化する作業はなく、パフォーマンスが制限されている。
本稿では,現代CPUのマルチレベルキャッシュとマルチスレッド機能を完全に実現した効率的なCFトレーニングシステム(HEAT)を提案する。
論文 参考訳(メタデータ) (2023-04-14T18:07:26Z) - SegNeXt: Rethinking Convolutional Attention Design for Semantic
Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。
コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-09-18T14:33:49Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Parallel 3DPIFCM Algorithm for Noisy Brain MRI Images [3.3946853660795884]
本稿では,GPUを用いて並列環境で3DPIFCMと呼ばれる[1]で開発したアルゴリズムについて述べる。
この結果から,並列バージョンはGAIFCMアルゴリズムより最大27倍高速,GAIFCMアルゴリズムより68倍高速であることがわかった。
論文 参考訳(メタデータ) (2020-02-05T20:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。