論文の概要: Low-Rank GEMM: Efficient Matrix Multiplication via Low-Rank Approximation with FP8 Acceleration
- arxiv url: http://arxiv.org/abs/2511.18674v1
- Date: Mon, 24 Nov 2025 01:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.964818
- Title: Low-Rank GEMM: Efficient Matrix Multiplication via Low-Rank Approximation with FP8 Acceleration
- Title(参考訳): 低ランクGEMM:FP8加速を用いた低ランク近似による効率的な行列乗算
- Authors: Alfredo Metere,
- Abstract要約: 低ランクGEMMは、低ランク行列近似を利用してサブクアクラティック複雑性を実現する新しいアプローチである。
システムはハードウェア機能に自動的に適応し、最適な分解方法を選択する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large matrix multiplication is a cornerstone of modern machine learning workloads, yet traditional approaches suffer from cubic computational complexity (e.g., $\mathcal{O}(n^3)$ for a matrix of size $n\times n$). We present Low-Rank GEMM, a novel approach that leverages low-rank matrix approximations to achieve sub-quadratic complexity while maintaining hardware-accelerated performance through FP8 precision and intelligent kernel selection. On a NVIDIA RTX 4090, our implementation achieves up to 378 TFLOPS on matrices up to $N=20480$, providing 75\% memory savings and $7.8\times$ speedup over PyTorch FP32 for large matrices. The system automatically adapts to hardware capabilities, selecting optimal decomposition methods (SVD, randomized SVD) and precision levels based on matrix characteristics and available accelerators. Comprehensive benchmarking on NVIDIA RTX 4090 demonstrates that Low-Rank GEMM becomes the fastest approach for matrices $N\geq10240$, surpassing traditional cuBLAS implementations through memory bandwidth optimization rather than computational shortcuts.
- Abstract(参考訳): 大規模行列乗算は現代の機械学習ワークロードの基盤となっているが、従来の手法では3次計算の複雑さに悩まされている(例:$\mathcal{O}(n^3)$, $n\times n$)。
本稿では,FP8精度とインテリジェントカーネル選択によるハードウェアアクセラレーション性能を維持しながら,低ランク行列近似を利用してサブクワラティック複雑性を実現する,新しいアプローチであるローランクGEMMを提案する。
NVIDIA RTX 4090では、最大378 TFLOPSを行列上で最大$N=20480$まで達成し、75\%のメモリ節約と7.8\times$大きな行列に対してPyTorch FP32を高速化します。
このシステムは、最適分解法(SVD、ランダム化SVD)と行列特性と利用可能な加速器に基づいて精度レベルを選択することにより、ハードウェア機能に自動的に適応する。
NVIDIA RTX 4090の総合ベンチマークでは、低ランクGEMMが計算ショートカットではなくメモリ帯域幅の最適化によって従来のcuBLAS実装を上回り、$N\geq10240$の行列の最速のアプローチとなっていることが示されている。
関連論文リスト
- Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文 参考訳(メタデータ) (2025-11-20T18:56:05Z) - APT-LLM: Exploiting Arbitrary-Precision Tensor Core Computing for LLM Acceleration [5.075697428779204]
大規模言語モデル(LLM)は、AIアプリケーションに革命をもたらしたが、その膨大な計算要求は、デプロイメントとリアルタイムのパフォーマンスを著しく制限している。
これは主にGPU Coreの限定的なサポート、非効率なメモリ管理、非フレキシブルなカーネル最適化が原因である。
本稿では,任意の精度のLLM,すなわちAPT-LLMに対する包括的加速法を提案する。
論文 参考訳(メタデータ) (2025-08-26T14:48:29Z) - FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。
当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文 参考訳(メタデータ) (2025-05-23T14:37:00Z) - A Nonlinear Hash-based Optimization Method for SpMV on GPUs [19.6395697341071]
スパース行列再順序付けの最適化におけるハッシュベースの手法の有効性を強調した。
本稿では,Hash-based Partition (HBP) フォーマットについて紹介する。
実験では,Regu2Dの動的プログラミング手法と比較して,ソート手法と比較して平均3.53倍,3.67倍の高速化が得られた。
論文 参考訳(メタデータ) (2025-04-11T08:31:44Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Direct Spatial Implementation of Sparse Matrix Multipliers for Reservoir
Computing [0.0]
貯水池の計算システムは、非常に大きくてスパースな固定行列の繰り返し乗算に依存している。
これらの固定行列の直接実装は、計算で実行される作業を最小化する。
ビットシリアル行列乗算器の構造を提示し、正則符号付き桁表現を用いて論理利用をさらに削減する。
論文 参考訳(メタデータ) (2021-01-21T23:16:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。