論文の概要: Changing Base Without Losing Pace: A GPU-Efficient Alternative to MatMul in DNNs
- arxiv url: http://arxiv.org/abs/2503.12211v1
- Date: Sat, 15 Mar 2025 17:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:01.953091
- Title: Changing Base Without Losing Pace: A GPU-Efficient Alternative to MatMul in DNNs
- Title(参考訳): 失われたペースでベースを変更する: DNNにおけるMatMulのGPU効率の良い代替手段
- Authors: Nir Ailon, Akhiad Bercovich, Omri Weinstein,
- Abstract要約: ディープニューラルネットワーク(DNN)における行列乗算に対するより安価な代替バイリニア演算子を提案する。
STLで線状層を置換し,スクラッチからトレーニングし,FLOPの因子x2.7を0.5倍の精度で減少させることを示した。
Slim Pajamaデータセット上のSTL層でTinyLlama citetinyllama24を微調整すると、x2.2 FLOPのスピードアップが後者のx1.7と比べて2:4と同等の精度が得られる。
- 参考スコア(独自算出の注目度): 1.8911962184174564
- License:
- Abstract: We propose a cheaper alternative bilinear operator to matrix-multiplication in deep neural networks (DNNs). Unlike many stubborn attempts to accelerate MatMuls in DNN inference, this operator is supported by capabilities of existing GPU hardware, most notably NVIDIA TensorCores. To our knowledge, this is the first GPU-native acceleration technique which \emph{does not decrease} (in fact, increases) the number of trainable parameters of the network, mitigating the accuracy-loss of compression-based techniques. Hence, this operator is at the same time more expressive than MatMul, yet requires substantially \emph{fewer} FLOPs to evaluate. We term this new operator \emph{Strassen-Tile} (STL). The main idea behind STL$(X,W)$ is a \emph{local} change-of-basis (learnable encoder) on weights and activation \emph{tiles}, after which we perform batched \emph{elementwise} products between tiles, and a final decoding transformation (inspired by algebraic pipelines from fast matrix and polynomial multiplication). We compare STL against two benchmarks. The first one is SoTA T2T-ViT on Imagenet-1K. Here we show that replacing \emph{all} linear layers with STL and training from scratch, results in factor x2.7 reduction in FLOPs with a 0.5 \emph{accuracy improvement}. Our second speed-accuracy comparison benchmark for pretrained LLMs is the most practical GPU-acceleration technique, \twofour structured Sparsity. Finetuning TinyLlama \cite{tinyllama24} with STL layers on the Slim Pajama dataset, achieves similar accuracy to 2:4, with x2.2 FLOP speedup compared to x1.7 of the latter. Finally, we discuss a group-theoretic approach for discovering \emph{universal} encoders for STL, which could lead to fast \emph{black-box} acceleration via approximate matrix-multiplication (AMM).
- Abstract(参考訳): 本稿では,ディープニューラルネットワーク(DNN)における行列乗算に対して,より安価なバイリニア演算子を提案する。
DNN推論でMatMulsを高速化しようとする多くのスタブボーン試みとは異なり、この演算子は既存のGPUハードウェア、特にNVIDIA TensorCoresの機能によってサポートされている。
我々の知る限り、これは、ネットワークのトレーニング可能なパラメータの数を増やし、圧縮ベースのテクニックの正確さを軽減した最初のGPUネイティブ加速技術である。
したがって、この演算子はMatMulよりも表現力が高いが、評価には実質的に \emph{fewer} FLOP が必要である。
この新しい演算子 \emph{Strassen-Tile} (STL) と呼ぶ。
STL$(X,W)$ の背後にある主要なアイデアは、ウェイトとアクティベーションに関する \emph{local} change-of-basis (学習可能なエンコーダ)であり、その後、タイル間でバッチ化された \emph{elementwise} 積を実行し、最終的な復号変換(高速行列と多項式乗法からの代数的パイプラインから着想を得た)を行う。
STLを2つのベンチマークと比較する。
1つ目はImagenet-1K上のSoTA T2T-ViTである。
ここでは, 線形層を STL に置き換えてスクラッチからトレーニングすることにより, FLOP の x2.7 因子を0.5 emph{accuracy Improvement} で削減できることを示す。
プリトレーニング済みLLMの2番目の速度精度比較ベンチマークは、最も実用的なGPUアクセラレーション技術である \twofour structured Sparsityである。
Slim Pajamaデータセット上のSTL層でTinyLlama \cite{tinyllama24}を微調整すると、x2.2 FLOPのスピードアップが後者のx1.7に比べて2:4の精度が得られる。
最後に, STL の \emph{universal} エンコーダを発見するための群理論的アプローチについて議論し, 近似行列乗算 (AMM) による高速な \emph{black-box} 加速を実現する。
関連論文リスト
- Opara: Exploiting Operator Parallelism for Expediting DNN Inference on GPUs [20.506357657234755]
emphOparaは、GPU上のDeep Neural Network(DNN)推論を高速化する、リソースと干渉対応のスケジューリングフレームワークである。
我々はPyTorchをベースとしたemphOparaのプロトタイプを,emphnon-intrusiveな方法で実装し,オープンソース化する。
代表的DNNとTransformerベースのモデルによるプロトタイプ実験は、emphoparaがPyTorchのデフォルトシーケンシャルな textttCUDA Graph よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-16T06:48:11Z) - DYAD: A Descriptive Yet Abjuring Density efficient approximation to
linear neural network layers [19.949611634077634]
我々はDYADを考案し、実装し、性能評価する。DYADは線形層を高速でよりメモリ効率の良い近似的に置き換えることができる。
DYADは、行列がそのような層、a.a.DENSEの典型的な実現において入力を乗算する濃厚な「重い」行列Wを近似するベスポーク近傍スパース行列構造に基づいている。
論文 参考訳(メタデータ) (2023-12-11T23:04:48Z) - Distributed Extra-gradient with Optimal Complexity and Communication
Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。
モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。
そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文 参考訳(メタデータ) (2023-08-17T21:15:04Z) - ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer [6.473688838974095]
本稿では,GPU上でのエンドツーエンドの推論高速化を実現するために,$textbfShiftAddViT$と呼ばれる新たな乗法モデルを提案する。
様々な2D/3D視覚タスクの実験は、提案したShiftAddViTの有効性を一貫して検証する。
論文 参考訳(メタデータ) (2023-06-10T13:53:41Z) - SKI to go Faster: Accelerating Toeplitz Neural Networks via Asymmetric
Kernels [69.47358238222586]
Toeplitz Neural Networks (TNN) は、印象的な結果を持つ最近のシーケンスモデルである。
我々は, O(n) 計算複雑性と O(n) 相対位置エンコーダ (RPE) 多層パーセプトロン (MLP) と減衰バイアスコールの低減を目指す。
双方向モデルの場合、これはスパースと低ランクのToeplitz行列分解を動機付ける。
論文 参考訳(メタデータ) (2023-05-15T21:25:35Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Asynchronous Stochastic Optimization Robust to Arbitrary Delays [54.61797739710608]
遅延勾配の最適化を考えると、ステップt$毎に、アルゴリズムは古い計算を使って更新する - d_t$ for arbitrary delay $d_t gradient。
本実験は,遅延分布が歪んだり重くなったりした場合のアルゴリズムの有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2021-06-22T15:50:45Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。