論文の概要: Space Filling Curves is All You Need: Communication-Avoiding Matrix Multiplication Made Simple
- arxiv url: http://arxiv.org/abs/2601.16294v1
- Date: Thu, 22 Jan 2026 19:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.389721
- Title: Space Filling Curves is All You Need: Communication-Avoiding Matrix Multiplication Made Simple
- Title(参考訳): 通信回避マトリックスの乗算をシンプルにする「Space Filling Curves」
- Authors: Evangelos Georganas, Alexander Heinecke, Pradeep Dubey,
- Abstract要約: 一般行列乗算はディープラーニングとHPCワークロードの基盤である。
行列乗算アクセラレータを持つ現代のプラットフォームは高いFLOP/Byteマシンバランスを示す。
この作業では、この面倒なチューニングの問題を緩和するために、空間充填曲線 (SFC) を再検討する。
我々は,データ局所性を本質的に高次に示す,プラットフォーム指向および形状指向の行列乗算スキームを得る。
- 参考スコア(独自算出の注目度): 42.09057806159106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General Matrix Multiplication (GEMM) is the cornerstone of Deep Learning and HPC workloads; accordingly, academia and industry have heavily optimized this kernel. Modern platforms with matrix multiplication accelerators exhibit high FLOP/Byte machine balance, which makes implementing optimal matrix multiplication challenging. On modern CPU platforms with matrix engines, state-of-the-art vendor libraries tune input tensor layouts, parallelization schemes, and cache blocking to minimize data movement across the memory hierarchy and maximize throughput. However, the best settings for these parameters depend strongly on the target platform (number of cores, memory hierarchy, cache sizes) and on the shapes of the matrices, making exhaustive tuning infeasible; in practice this leads to performance "glass jaws". In this work we revisit space filling curves (SFC) to alleviate the problem of this cumbersome tuning. SFC convert multi-dimensional coordinates (e.g. 2D) into a single dimension (1D), keeping nearby points in the high-dimensional space close in the 1D order. We partition the Matrix Multiplication computation space using recent advancements in generalized SFC (Generalized Hilbert Curves), and we obtain platform-oblivious and shape-oblivious matrix-multiplication schemes that exhibit inherently high degree of data locality. Furthermore, we extend the SFC-based work partitioning to implement Communication-Avoiding (CA) algorithms that replicate the input tensors and provably minimize communication/data-movement on the critical path. The integration of CA-algorithms is seamless and yields compact code (~30 LOC), yet it achieves state-of-the-art results on multiple CPU platforms, outperforming vendor libraries by up to 2x(geometric-mean speedup) for a range of GEMM shapes.
- Abstract(参考訳): GEMM(General Matrix Multiplication)はディープラーニングとHPCワークロードの基盤である。
行列乗算アクセラレータを持つ現代のプラットフォームは高いFLOP/Byteマシンバランスを示しており、最適行列乗算の実装が困難である。
マトリックスエンジンを備えた最新のCPUプラットフォームでは、最新のベンダーライブラリが入力テンソルレイアウト、並列化スキーム、キャッシュブロッキングをチューニングし、メモリ階層間のデータ移動を最小化し、スループットを最大化する。
しかし、これらのパラメータの最良の設定は、ターゲットプラットフォーム(コアの数、メモリ階層、キャッシュサイズ)と行列の形状に強く依存しており、徹底的なチューニングが不可能である。
この作業では、この面倒なチューニングの問題を緩和するために、空間充填曲線 (SFC) を再検討する。
SFCは多次元座標(e g 2D)を1次元(1D)に変換し、1次元オーダーに近い高次元空間に近傍の点を保持する。
一般化されたSFC(Generalized Hilbert Curves)の最近の進歩を利用して行列乗算の計算空間を分割し,データ局所性を本質的に高次に示す,プラットフォーム対応および形状対応の行列乗算スキームを得る。
さらに、SFCベースのワークパーティショニングを拡張して、入力テンソルを複製し、クリティカルパス上での通信/データ移動を確実に最小化する通信回避アルゴリズムを実装した。
CA-algorithmsの統合はシームレスであり、コンパクトコード(約30LOC)を出力するが、複数のCPUプラットフォーム上で最先端の結果を達成し、GEMMの様々な形状に対して最大2倍(幾何学的平均スピードアップ)のベンダーライブラリを上回っている。
関連論文リスト
- GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - Libra: Synergizing CUDA and Tensor Cores for High-Performance Sparse Matrix Multiplication [6.557224606759151]
現代の加速器は一般にスパース演算子を加速するコアとコアを備えている。
資源を1つだけ利用すれば,それぞれの制限のため,スパース行列乗算の性能が劣ることを示す。
本稿では,2.9コアの高性能とコアの低冗長性を両立させて,タスクマッピング演算子のスイートポイントを求める2D対応のワークロード計算戦略を提案する。
論文 参考訳(メタデータ) (2025-06-28T01:50:13Z) - Orthogonal Finetuning Made Scalable [92.34573849209238]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。
ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。
本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。
これらの変更により、OFTv2は最大10倍の高速トレーニングと3倍のGPUメモリ使用率を達成することができる。
論文 参考訳(メタデータ) (2025-06-24T17:59:49Z) - FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。
当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文 参考訳(メタデータ) (2025-05-23T14:37:00Z) - VIRGOS: Secure Graph Convolutional Network on Vertically Split Data from Sparse Matrix Decomposition [10.972364935510152]
グラフ畳み込みネットワーク(GCN)は、ソーシャル/クレディットネットワークのようなプライバシーに敏感なデータにその分析能力を適用するために重要である。
GCNにおけるグラフのスパースかつ大きな隣接行列(トレーニング/推論におけるコア操作)を乗じると、セキュアGCNのパフォーマンスボトルネックが生じる。
本稿では,マルチパーティ計算(MPC)と行列幅の共設計を提案する。
論文 参考訳(メタデータ) (2025-02-13T22:54:27Z) - SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.14360329494344]
本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。
ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文 参考訳(メタデータ) (2024-11-23T21:43:38Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - SKIing on Simplices: Kernel Interpolation on the Permutohedral Lattice
for Scalable Gaussian Processes [39.821400341226315]
構造化カーネル補間(SKI)フレームワークは、グリッド上で効率的な行列ベクトル乗算(MVM)を行うために使用される。
我々は,SKIと多面体格子を高次元高速二元フィルタで接続する手法を開発した。
密度の大きい矩形格子の代わりにスパースsimplicial gridを用いることで、SKIよりも指数関数的に高速にGP推論を行うことができる。
また,MVMに基づく推論の大幅な高速化を可能にするSimplex-GPの実装も提供する。
論文 参考訳(メタデータ) (2021-06-12T06:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。