論文の概要: Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields
- arxiv url: http://arxiv.org/abs/2510.23621v1
- Date: Thu, 23 Oct 2025 14:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.288963
- Title: Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields
- Title(参考訳): MACEの高速化: 等価力場のための低精度トリック
- Authors: Alexandre Benoit,
- Abstract要約: 機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
- 参考スコア(独自算出の注目度): 51.95157731126864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine-learning force fields can deliver accurate molecular dynamics (MD) at high computational cost. For SO(3)-equivariant models such as MACE, there is little systematic evidence on whether reduced-precision arithmetic and GPU-optimized kernels can cut this cost without harming physical fidelity. This thesis aims to make MACE cheaper and faster while preserving accuracy by identifying computational bottlenecks and evaluating low-precision execution policies. We profile MACE end-to-end and per block, compare the e3nn and NVIDIA cuEquivariance backends, and assess FP64/FP32/BF16/FP16 settings (with FP32 accumulation) for inference, short NVT and long NPT water simulations, and toy training runs under reproducible, steady-state timing. cuEquivariance reduces inference latency by about $3\times$. Casting only linear layers to BF16/FP16 within an FP32 model yields roughly 4x additional speedups, while energies and thermodynamic observables in NVT/NPT MD remain within run-to-run variability. Half-precision weights during training degrade force RMSE. Mixing e3nn and cuEq modules without explicit adapters causes representation mismatches. Fused equivariant kernels and mixed-precision inference can substantially accelerate state-of-the-art force fields with negligible impact on downstream MD. A practical policy is to use cuEquivariance with FP32 by default and enable BF16/FP16 for linear layers (keeping FP32 accumulations) for maximum throughput, while training remains in FP32. Further gains are expected on Ampere/Hopper GPUs (TF32/BF16) and from kernel-level FP16/BF16 paths and pipeline fusion.
- Abstract(参考訳): 機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
MACEのようなSO(3)同変モデルでは、削減精度算術とGPU最適化カーネルが物理的忠実さを損なうことなくこのコストを削減できるかどうかという体系的な証拠はほとんどない。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することによって、精度を保ちながら、MACEを安価かつ高速にすることを目的としている。
We profile MACE end-to-end and per block, compare the e3nn and NVIDIA cuEquivariance backends, and evaluation FP64/FP32/BF16/FP16 settings for inference, short NVT and long NPT water Simulation, and toy training run under reproducible, steady-state timing。
cuEquivarianceは推論遅延を約$3\times$に減らす。
FP32モデル内の線形層のみをBF16/FP16にキャストすると、約4倍のスピードアップが得られるが、NVT/NPT MDのエネルギーと熱力学的観測値は実行時変動に留まる。
練習用脱格力RMSEの半精度重量。
e3nnとcuEqモジュールを明示的なアダプタなしで混合すると、表現ミスマッチが発生する。
融合同変カーネルと混合精度推論は、下流MDに無視できる影響で、最先端の力場を著しく加速させることができる。
FP32とcuEquivarianceをデフォルトで使用し、最大スループットのために線形層(FP32の蓄積を保持する)に対してBF16/FP16を有効にし、トレーニングはFP32に留まる。
Ampere/Hopper GPU(TF32/BF16)とカーネルレベルのFP16/BF16パスとパイプラインの融合により、さらなる利益が期待できる。
関連論文リスト
- Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling [13.357423392911036]
NVFP4量子化アルゴリズムを改良したFour Over Six (4/6)を導入する。
いくつかのブロックに対して、より小さなFP4値へのスケーリングは、表現可能な値の分布をより均一にする。
また,4/6は,多くの学習後量子化手法に容易に組み込むことができ,一般に下流の精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-12-01T18:59:45Z) - MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - Defeating the Training-Inference Mismatch via FP16 [72.25890308541334]
強化学習(Reinforcement Learning, RL)の微調整は、トレーニングと推論ポリシーのミスマッチが原因で不安定な場合が多い。
その根本原因は浮動小数点精度そのものにあることを示す。
広く採用されているBF16は、大きなダイナミックレンジにもかかわらず、トレーニングと推論の一貫性を損なう大きな丸め誤差を導入している。
論文 参考訳(メタデータ) (2025-10-30T17:58:11Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference [31.2331188304598]
評価バッチサイズ、GPUカウント、GPUバージョンなどのシステム構成の変更は、生成されたレスポンスに大きな違いをもたらす可能性がある。
この変数の根本原因は、限定的な数値精度で浮動小数点算術の非連想性に遡る。
そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文 参考訳(メタデータ) (2025-06-11T08:23:53Z) - Training LLMs with MXFP4 [16.524414449291488]
サポート対象ハードウェアのFP8よりも2倍高速なMXFP4 GEMMを用いた,最初のニアロスレストレーニングレシピを提示する。
我々のレシピでは、MXFP4のトレーニングFLOPを1/2$で計算し、バックプロパゲーション時に、FP8よりも$1.3times$、BF16より$1.7times$と見積もることができる。
論文 参考訳(メタデータ) (2025-02-27T23:01:31Z) - To FP8 and Back Again: Quantifying Reduced Precision Effects on LLM Training Stability [7.115739465137031]
BrainFloat16 (BF16) の精度は、大規模な言語モデルの事前トレーニングのデファクトスタンダードになっている。
しかしながら、BF16より安定でないことが判明したFP16の以前の経験は、FP8がLCM訓練の費用対効果があるかどうかという懸念を提起している。
自己回帰言語モデルにおける損失ランドスケープのシャープネスを定量化するための新しい評価手法と新しい指標を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:42:23Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z) - Data-Free Dynamic Compression of CNNs for Tractable Efficiency [46.498278084317704]
構造化プルーニング手法は, 精度が大幅に低下することなく浮動小数点演算を低下させる可能性を示唆している。
HASTE(Hashing for Tractable Efficiency)は,データフリーでプラグイン・アンド・プレイのコンボリューションモジュールで,トレーニングや微調整なしにネットワークのテスト時間推論コストを瞬時に低減する。
CIFAR-10とImageNetでは46.72%のFLOPを1.25%の精度で削減した。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference [1.1292678337479967]
fbgemmは、次世代cpuの高性能量子化推論のための高性能カーネルライブラリである。
fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。
このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-01-13T00:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。