Fugu-MT 論文翻訳(概要): Changing Base Without Losing Pace: A GPU-Efficient Alternative to MatMul in DNNs

論文の概要: Changing Base Without Losing Pace: A GPU-Efficient Alternative to MatMul in DNNs

arxiv url: http://arxiv.org/abs/2503.12211v1
Date: Sat, 15 Mar 2025 17:31:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.782767
Title: Changing Base Without Losing Pace: A GPU-Efficient Alternative to MatMul in DNNs
Title（参考訳）: 失われたペースでベースを変更する: DNNにおけるMatMulのGPU効率の良い代替手段
Authors: Nir Ailon, Akhiad Bercovich, Omri Weinstein,
Abstract要約: ディープニューラルネットワーク(DNN)における行列乗算に対するより安価な代替バイリニア演算子を提案する。 STLで線状層を置換し,スクラッチからトレーニングし,FLOPの因子x2.7を0.5倍の精度で減少させることを示した。 Slim Pajamaデータセット上のSTL層でTinyLlama citetinyllama24を微調整すると、x2.2 FLOPのスピードアップが後者のx1.7と比べて2:4と同等の精度が得られる。
参考スコア（独自算出の注目度）: 1.8911962184174564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a cheaper alternative bilinear operator to matrix-multiplication in deep neural networks (DNNs). Unlike many stubborn attempts to accelerate MatMuls in DNN inference, this operator is supported by capabilities of existing GPU hardware, most notably NVIDIA TensorCores. To our knowledge, this is the first GPU-native acceleration technique which \emph{does not decrease} (in fact, increases) the number of trainable parameters of the network, mitigating the accuracy-loss of compression-based techniques. Hence, this operator is at the same time more expressive than MatMul, yet requires substantially \emph{fewer} FLOPs to evaluate. We term this new operator \emph{Strassen-Tile} (STL). The main idea behind STL$(X,W)$ is a \emph{local} change-of-basis (learnable encoder) on weights and activation \emph{tiles}, after which we perform batched \emph{elementwise} products between tiles, and a final decoding transformation (inspired by algebraic pipelines from fast matrix and polynomial multiplication). We compare STL against two benchmarks. The first one is SoTA T2T-ViT on Imagenet-1K. Here we show that replacing \emph{all} linear layers with STL and training from scratch, results in factor x2.7 reduction in FLOPs with a 0.5 \emph{accuracy improvement}. Our second speed-accuracy comparison benchmark for pretrained LLMs is the most practical GPU-acceleration technique, \twofour structured Sparsity. Finetuning TinyLlama \cite{tinyllama24} with STL layers on the Slim Pajama dataset, achieves similar accuracy to 2:4, with x2.2 FLOP speedup compared to x1.7 of the latter. Finally, we discuss a group-theoretic approach for discovering \emph{universal} encoders for STL, which could lead to fast \emph{black-box} acceleration via approximate matrix-multiplication (AMM).
Abstract（参考訳）: 本稿では,ディープニューラルネットワーク(DNN)における行列乗算に対して,より安価なバイリニア演算子を提案する。 DNN推論でMatMulsを高速化しようとする多くのスタブボーン試みとは異なり、この演算子は既存のGPUハードウェア、特にNVIDIA TensorCoresの機能によってサポートされている。我々の知る限り、これは、ネットワークのトレーニング可能なパラメータの数を増やし、圧縮ベースのテクニックの正確さを軽減した最初のGPUネイティブ加速技術である。したがって、この演算子はMatMulよりも表現力が高いが、評価には実質的に \emph{fewer} FLOP が必要である。この新しい演算子 \emph{Strassen-Tile} (STL) と呼ぶ。 STL$(X,W)$ の背後にある主要なアイデアは、ウェイトとアクティベーションに関する \emph{local} change-of-basis (学習可能なエンコーダ)であり、その後、タイル間でバッチ化された \emph{elementwise} 積を実行し、最終的な復号変換(高速行列と多項式乗法からの代数的パイプラインから着想を得た)を行う。 STLを2つのベンチマークと比較する。 1つ目はImagenet-1K上のSoTA T2T-ViTである。ここでは, 線形層を STL に置き換えてスクラッチからトレーニングすることにより, FLOP の x2.7 因子を0.5 emph{accuracy Improvement} で削減できることを示す。プリトレーニング済みLLMの2番目の速度精度比較ベンチマークは、最も実用的なGPUアクセラレーション技術である \twofour structured Sparsityである。 Slim Pajamaデータセット上のSTL層でTinyLlama \cite{tinyllama24}を微調整すると、x2.2 FLOPのスピードアップが後者のx1.7に比べて2:4の精度が得られる。最後に, STL の \emph{universal} エンコーダを発見するための群理論的アプローチについて議論し, 近似行列乗算 (AMM) による高速な \emph{black-box} 加速を実現する。

関連論文リスト

Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文参考訳（メタデータ） (2025-03-13T03:56:22Z)
Multi-level projection with exponential parallel speedup; Application to sparse auto-encoders neural networks [2.264332709661011]
ell_1,infty$ノルムの時間複雑性は、$mathbbRntimes m$の行列に対して$mathcalObig(n m big)$のみであることを示す。実験により、我々の予測は、実際の最速のユークリッドアルゴリズムの2倍高速であることが示されている。
論文参考訳（メタデータ） (2024-05-03T13:21:49Z)
Opara: Exploiting Operator Parallelism for Expediting DNN Inference on GPUs [20.506357657234755]
emphOparaは、GPU上のDeep Neural Network(DNN)推論を高速化する、リソースと干渉対応のスケジューリングフレームワークである。我々はPyTorchをベースとしたemphOparaのプロトタイプを,emphnon-intrusiveな方法で実装し,オープンソース化する。代表的DNNとTransformerベースのモデルによるプロトタイプ実験は、emphoparaがPyTorchのデフォルトシーケンシャルな textttCUDA Graph よりも優れていることを示した。
論文参考訳（メタデータ） (2023-12-16T06:48:11Z)
DYAD: A Descriptive Yet Abjuring Density efficient approximation to linear neural network layers [19.949611634077634]
我々はDYADを考案し、実装し、性能評価する。DYADは線形層を高速でよりメモリ効率の良い近似的に置き換えることができる。 DYADは、行列がそのような層、a.a.DENSEの典型的な実現において入力を乗算する濃厚な「重い」行列Wを近似するベスポーク近傍スパース行列構造に基づいている。
論文参考訳（メタデータ） (2023-12-11T23:04:48Z)
ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer [6.473688838974095]
本稿では,GPU上でのエンドツーエンドの推論高速化を実現するために,$textbfShiftAddViT$と呼ばれる新たな乗法モデルを提案する。様々な2D/3D視覚タスクの実験は、提案したShiftAddViTの有効性を一貫して検証する。
論文参考訳（メタデータ） (2023-06-10T13:53:41Z)
SKI to go Faster: Accelerating Toeplitz Neural Networks via Asymmetric Kernels [69.47358238222586]
Toeplitz Neural Networks (TNN) は、印象的な結果を持つ最近のシーケンスモデルである。我々は, O(n) 計算複雑性と O(n) 相対位置エンコーダ (RPE) 多層パーセプトロン (MLP) と減衰バイアスコールの低減を目指す。双方向モデルの場合、これはスパースと低ランクのToeplitz行列分解を動機付ける。
論文参考訳（メタデータ） (2023-05-15T21:25:35Z)
Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文参考訳（メタデータ） (2022-11-15T19:10:12Z)
Monarch: Expressive Structured Matrices for Efficient and Accurate Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文参考訳（メタデータ） (2022-04-01T17:37:29Z)
Asynchronous Stochastic Optimization Robust to Arbitrary Delays [54.61797739710608]
遅延勾配の最適化を考えると、ステップt$毎に、アルゴリズムは古い計算を使って更新する - d_t$ for arbitrary delay $d_t gradient。本実験は,遅延分布が歪んだり重くなったりした場合のアルゴリズムの有効性とロバスト性を示す。
論文参考訳（メタデータ） (2021-06-22T15:50:45Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。