論文の概要: MMA-Sim: Bit-Accurate Reference Model of Tensor Cores and Matrix Cores
- arxiv url: http://arxiv.org/abs/2511.10909v1
- Date: Fri, 14 Nov 2025 02:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.402365
- Title: MMA-Sim: Bit-Accurate Reference Model of Tensor Cores and Matrix Cores
- Title(参考訳): MMA-Sim:テンソルコアとマトリックスコアのビット精度基準モデル
- Authors: Peichen Xie, Yang Wang, Fan Yang, Mao Yang,
- Abstract要約: MMAは、ディープニューラルネットワークの安定性と計算を損なうことができる数値的不整合と不整合をもたらす可能性がある。
本稿では,MMAの詳細な演算挙動を明らかにする最初のビット精度参照モデルであるMMA-Simを提案する。
- 参考スコア(独自算出の注目度): 8.038103410041476
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapidly growing computation demands of deep neural networks (DNNs) have driven hardware vendors to integrate matrix multiplication accelerators (MMAs), such as NVIDIA Tensor Cores and AMD Matrix Cores, into modern GPUs. However, due to distinct and undocumented arithmetic specifications for floating-point matrix multiplication, some MMAs can lead to numerical imprecision and inconsistency that can compromise the stability and reproducibility of DNN training and inference. This paper presents MMA-Sim, the first bit-accurate reference model that reveals the detailed arithmetic behaviors of the MMAs from ten GPU architectures (eight from NVIDIA and two from AMD). By dissecting the MMAs using a combination of targeted and randomized tests, our methodology derives nine arithmetic algorithms to simulate the floating-point matrix multiplication of the MMAs. Large-scale validation confirms bitwise equivalence between MMA-Sim and the real hardware. Using MMA-Sim, we investigate arithmetic behaviors that affect DNN training stability, and identify undocumented behaviors that could lead to significant errors.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の急速な計算要求により、ハードウェアベンダはNVIDIA Tensor CoresやAMD Matrix Coresといったマトリックス乗算アクセラレータ(MMA)を現代的なGPUに統合した。
しかし、浮動小数点行列の乗算の算術的仕様が明確で文書化されていないため、いくつかのMMAは数値的な不正確さと不整合を招き、DNNのトレーニングと推論の安定性と再現性を損なう可能性がある。
本稿では,10個のGPUアーキテクチャ(NVIDIAから8個,AMDから2個)からMMAの詳細な演算挙動を明らかにするための,最初のビット精度参照モデルであるMMA-Simを提案する。
本手法は,MMAの浮動小数点行列乗算をシミュレートするため,9つの算術アルゴリズムを導出する。
大規模検証は、MMA-Simと実際のハードウェアのビットワイドな等価性を確認する。
MMA-Sim を用いて DNN トレーニングの安定性に影響を与える算術的挙動を調べた。
関連論文リスト
- Full Integer Arithmetic Online Training for Spiking Neural Networks [0.006486143522483092]
スパイキングニューラルネットワーク(SNN)は、その生物学的妥当性とエネルギー効率のために、ニューロモルフィックコンピューティングを約束している。
この研究は、混合精度アプローチを用いて整数のみのオンライントレーニングアルゴリズムを導入し、効率を改善し、メモリ使用量を60%以上削減する。
論文 参考訳(メタデータ) (2025-09-08T12:54:30Z) - Scaling Probabilistic Circuits via Monarch Matrices [109.65822339230853]
確率回路(PC)は確率分布の抽出可能な表現である。
そこで本研究では,PCの和ブロックに対する新しいスパースパラメータと構造化パラメータ化を提案する。
論文 参考訳(メタデータ) (2025-06-14T07:39:15Z) - Multiplication-Free Transformer Training via Piecewise Affine Operations [44.99157696237478]
本稿では,浮動小数点数のビット表現を整数として加えることで実現した,安価なアフィン近似に置き換える。
変換器は、視覚と言語の両方のタスクに対して、結果の修正された行列乗法で、ほとんど、あるいは全く性能に影響を与えずに訓練できることが示される。
論文 参考訳(メタデータ) (2023-05-26T18:28:28Z) - NeuralMatrix: Compute the Entire Neural Networks with Linear Matrix Operations for Efficient Inference [20.404864470321897]
本稿では,ディープニューラルネットワーク(DNN)モデル全体の計算を線形行列演算に弾性的に変換するニューラルマトリックスを提案する。
CNNとトランスフォーマーベースのモデルによる実験は、広範囲のDNNモデルを正確かつ効率的に実行するためのNeuralMatrixの可能性を実証している。
このレベルの効率性は通常、特定のニューラルネットワーク用に設計されたアクセラレータでのみ達成できる。
論文 参考訳(メタデータ) (2023-05-23T12:03:51Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - Fast matrix multiplication for binary and ternary CNNs on ARM CPU [0.9135092203041721]
ARMアーキテクチャを持つモバイルデバイスに対して, 3次, 3次, 2次行列乗算の高速アルゴリズムを提案する。
我々のアルゴリズムは、TNN、TBN、BNNの畳み込み層と完全に接続された層を推論するために利用できる。
ARM Cortex-A73 CPU上で実験的に評価し,その推論速度を実精度,8ビット,4ビットの量子化行列乗算の効率的な実装と比較した。
論文 参考訳(メタデータ) (2022-05-18T14:52:34Z) - Learning from distinctive candidates to optimize reduced-precision
convolution program on tensor cores [3.7602925677190235]
本研究では,畳み込み操作のための縮小精度MMAの自動スケジューリング手法を提案する。
検索時間を短縮した芸術の状況と比較して,MMAの大幅な高速化を示す。
論文 参考訳(メタデータ) (2022-02-11T07:21:47Z) - Integer-arithmetic-only Certified Robustness for Quantized Neural
Networks [14.737638416823772]
敵の例に対処する一連の作業は、ランダムな平滑化による堅牢性を保証する。
このようなメカニズムは通常、推論の計算に浮動小数点演算を使用する。
提案手法は,浮動小数点演算によるロバストな手法よりも精度と4x5xの高速化が得られることを示す。
論文 参考訳(メタデータ) (2021-08-21T01:15:19Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。