論文の概要: Changing Base Without Losing Pace: A GPU-Efficient Alternative to MatMul in DNNs
- arxiv url: http://arxiv.org/abs/2503.12211v1
- Date: Sat, 15 Mar 2025 17:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.782767
- Title: Changing Base Without Losing Pace: A GPU-Efficient Alternative to MatMul in DNNs
- Title(参考訳): 失われたペースでベースを変更する: DNNにおけるMatMulのGPU効率の良い代替手段
- Authors: Nir Ailon, Akhiad Bercovich, Omri Weinstein,
- Abstract要約: ディープニューラルネットワーク(DNN)における行列乗算に対するより安価な代替バイリニア演算子を提案する。
STLで線状層を置換し,スクラッチからトレーニングし,FLOPの因子x2.7を0.5倍の精度で減少させることを示した。
Slim Pajamaデータセット上のSTL層でTinyLlama citetinyllama24を微調整すると、x2.2 FLOPのスピードアップが後者のx1.7と比べて2:4と同等の精度が得られる。
- 参考スコア(独自算出の注目度): 1.8911962184174564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a cheaper alternative bilinear operator to matrix-multiplication in deep neural networks (DNNs). Unlike many stubborn attempts to accelerate MatMuls in DNN inference, this operator is supported by capabilities of existing GPU hardware, most notably NVIDIA TensorCores. To our knowledge, this is the first GPU-native acceleration technique which \emph{does not decrease} (in fact, increases) the number of trainable parameters of the network, mitigating the accuracy-loss of compression-based techniques. Hence, this operator is at the same time more expressive than MatMul, yet requires substantially \emph{fewer} FLOPs to evaluate. We term this new operator \emph{Strassen-Tile} (STL). The main idea behind STL$(X,W)$ is a \emph{local} change-of-basis (learnable encoder) on weights and activation \emph{tiles}, after which we perform batched \emph{elementwise} products between tiles, and a final decoding transformation (inspired by algebraic pipelines from fast matrix and polynomial multiplication). We compare STL against two benchmarks. The first one is SoTA T2T-ViT on Imagenet-1K. Here we show that replacing \emph{all} linear layers with STL and training from scratch, results in factor x2.7 reduction in FLOPs with a 0.5 \emph{accuracy improvement}. Our second speed-accuracy comparison benchmark for pretrained LLMs is the most practical GPU-acceleration technique, \twofour structured Sparsity. Finetuning TinyLlama \cite{tinyllama24} with STL layers on the Slim Pajama dataset, achieves similar accuracy to 2:4, with x2.2 FLOP speedup compared to x1.7 of the latter. Finally, we discuss a group-theoretic approach for discovering \emph{universal} encoders for STL, which could lead to fast \emph{black-box} acceleration via approximate matrix-multiplication (AMM).
- Abstract(参考訳): 本稿では,ディープニューラルネットワーク(DNN)における行列乗算に対して,より安価なバイリニア演算子を提案する。
DNN推論でMatMulsを高速化しようとする多くのスタブボーン試みとは異なり、この演算子は既存のGPUハードウェア、特にNVIDIA TensorCoresの機能によってサポートされている。
我々の知る限り、これは、ネットワークのトレーニング可能なパラメータの数を増やし、圧縮ベースのテクニックの正確さを軽減した最初のGPUネイティブ加速技術である。
したがって、この演算子はMatMulよりも表現力が高いが、評価には実質的に \emph{fewer} FLOP が必要である。
この新しい演算子 \emph{Strassen-Tile} (STL) と呼ぶ。
STL$(X,W)$ の背後にある主要なアイデアは、ウェイトとアクティベーションに関する \emph{local} change-of-basis (学習可能なエンコーダ)であり、その後、タイル間でバッチ化された \emph{elementwise} 積を実行し、最終的な復号変換(高速行列と多項式乗法からの代数的パイプラインから着想を得た)を行う。
STLを2つのベンチマークと比較する。
1つ目はImagenet-1K上のSoTA T2T-ViTである。
ここでは, 線形層を STL に置き換えてスクラッチからトレーニングすることにより, FLOP の x2.7 因子を0.5 emph{accuracy Improvement} で削減できることを示す。
プリトレーニング済みLLMの2番目の速度精度比較ベンチマークは、最も実用的なGPUアクセラレーション技術である \twofour structured Sparsityである。
Slim Pajamaデータセット上のSTL層でTinyLlama \cite{tinyllama24}を微調整すると、x2.2 FLOPのスピードアップが後者のx1.7に比べて2:4の精度が得られる。
最後に, STL の \emph{universal} エンコーダを発見するための群理論的アプローチについて議論し, 近似行列乗算 (AMM) による高速な \emph{black-box} 加速を実現する。
関連論文リスト
- Orthogonal Finetuning Made Scalable [92.34573849209238]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。
ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。
本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。
これらの変更により、OFTv2は最大10倍の高速トレーニングと3倍のGPUメモリ使用率を達成することができる。
論文 参考訳(メタデータ) (2025-06-24T17:59:49Z) - FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。
当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文 参考訳(メタデータ) (2025-05-23T14:37:00Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - An Efficient Matrix Multiplication Algorithm for Accelerating Inference in Binary and Ternary Neural Networks [8.779871128906787]
我々はディープニューラルネットワーク(DNN)の推論時間とメモリ効率を改善するアルゴリズムを提案する。
推論のボトルネック演算として行列乗法に着目する。
我々の実験は推論時間で5.24倍のスピードアップを示す。
論文 参考訳(メタデータ) (2024-11-10T04:56:14Z) - Theoretical Insights into Fine-Tuning Attention Mechanism: Generalization and Optimization [27.907707931902547]
本研究では,大規模言語モデルの微調整における注意機構に関連する2つの現象について検討する。
ストレージと時間の両方で微調整効率を向上させる新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-10-03T06:37:37Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Multi-level projection with exponential parallel speedup; Application to sparse auto-encoders neural networks [2.264332709661011]
ell_1,infty$ノルムの時間複雑性は、$mathbbRntimes m$の行列に対して$mathcalObig(n m big)$のみであることを示す。
実験により、我々の予測は、実際の最速のユークリッドアルゴリズムの2倍高速であることが示されている。
論文 参考訳(メタデータ) (2024-05-03T13:21:49Z) - Opara: Exploiting Operator Parallelism for Expediting DNN Inference on GPUs [20.506357657234755]
emphOparaは、GPU上のDeep Neural Network(DNN)推論を高速化する、リソースと干渉対応のスケジューリングフレームワークである。
我々はPyTorchをベースとしたemphOparaのプロトタイプを,emphnon-intrusiveな方法で実装し,オープンソース化する。
代表的DNNとTransformerベースのモデルによるプロトタイプ実験は、emphoparaがPyTorchのデフォルトシーケンシャルな textttCUDA Graph よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-16T06:48:11Z) - DYAD: A Descriptive Yet Abjuring Density efficient approximation to
linear neural network layers [19.949611634077634]
我々はDYADを考案し、実装し、性能評価する。DYADは線形層を高速でよりメモリ効率の良い近似的に置き換えることができる。
DYADは、行列がそのような層、a.a.DENSEの典型的な実現において入力を乗算する濃厚な「重い」行列Wを近似するベスポーク近傍スパース行列構造に基づいている。
論文 参考訳(メタデータ) (2023-12-11T23:04:48Z) - ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer [6.473688838974095]
本稿では,GPU上でのエンドツーエンドの推論高速化を実現するために,$textbfShiftAddViT$と呼ばれる新たな乗法モデルを提案する。
様々な2D/3D視覚タスクの実験は、提案したShiftAddViTの有効性を一貫して検証する。
論文 参考訳(メタデータ) (2023-06-10T13:53:41Z) - SKI to go Faster: Accelerating Toeplitz Neural Networks via Asymmetric
Kernels [69.47358238222586]
Toeplitz Neural Networks (TNN) は、印象的な結果を持つ最近のシーケンスモデルである。
我々は, O(n) 計算複雑性と O(n) 相対位置エンコーダ (RPE) 多層パーセプトロン (MLP) と減衰バイアスコールの低減を目指す。
双方向モデルの場合、これはスパースと低ランクのToeplitz行列分解を動機付ける。
論文 参考訳(メタデータ) (2023-05-15T21:25:35Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Asynchronous Stochastic Optimization Robust to Arbitrary Delays [54.61797739710608]
遅延勾配の最適化を考えると、ステップt$毎に、アルゴリズムは古い計算を使って更新する - d_t$ for arbitrary delay $d_t gradient。
本実験は,遅延分布が歪んだり重くなったりした場合のアルゴリズムの有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2021-06-22T15:50:45Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Accelerating Sparse DNN Models without Hardware-Support via Tile-Wise
Sparsity [12.643043455369297]
本稿では,既存の高密度アーキテクチャ上での遅延高速化を実現するアルゴリズム-ソフトウェア共設計プルーニング手法を提案する。
我々はGPUテンソルコア上でのスパーシティパターンの実装と評価を行い,高密度モデル上での1.95倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-08-29T16:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。