論文の概要: FlashSchNet: Fast and Accurate Coarse-Grained Neural Network Molecular Dynamics
- arxiv url: http://arxiv.org/abs/2602.13140v1
- Date: Fri, 13 Feb 2026 17:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.061012
- Title: FlashSchNet: Fast and Accurate Coarse-Grained Neural Network Molecular Dynamics
- Title(参考訳): FlashSchNet: 粗粒ニューラルネットワークの高速かつ高精度な分子動力学
- Authors: Pingzhi Li, Hongxuan Li, Zirui Liu, Xingcheng Lin, Tianlong Chen,
- Abstract要約: SchNetのようなグラフニューラルネットワーク(GNN)のポテンシャルは、分子動力学(MD)シミュレーションの精度と伝達性を改善する。
我々は,高帯域メモリ(HBM)とオンチップ間の読み書きを慎重に考慮し,GNN-MD IOを意識する原理を欠いていることを示す。
提案するFlashSchNetは,4つの技術をベースに構築された,効率よく正確なIO対応GNN-MDフレームワークである。
- 参考スコア(独自算出の注目度): 36.3434800328807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph neural network (GNN) potentials such as SchNet improve the accuracy and transferability of molecular dynamics (MD) simulation by learning many-body interactions, but remain slower than classical force fields due to fragmented kernels and memory-bound pipelines that underutilize GPUs. We show that a missing principle is making GNN-MD IO-aware, carefully accounting for reads and writes between GPU high-bandwidth memory (HBM) and on-chip SRAM. We present FlashSchNet, an efficient and accurate IO-aware SchNet-style GNN-MD framework built on four techniques: (1) flash radial basis, which fuses pairwise distance computation, Gaussian basis expansion, and cosine envelope into a single tiled pass, computing each distance once and reusing it across all basis functions; (2) flash message passing, which fuses cutoff, neighbor gather, filter multiplication, and reduction to avoid materializing edge tensors in HBM; (3) flash aggregation, which reformulates scatter-add via CSR segment reduce, reducing atomic writes by a factor of feature dimension and enabling contention-free accumulation in both forward and backward passes; (4) channel-wise 16-bit quantization that exploits the low per-channel dynamic range in SchNet MLP weights to further improve throughput with negligible accuracy loss. On a single NVIDIA RTX PRO 6000, FlashSchNet achieves 1000 ns/day aggregate simulation throughput over 64 parallel replicas on coarse-grained (CG) protein containing 269 beads (6.5x faster than CGSchNet baseline with 80% reduction of peak memory), surpassing classical force fields (e.g. MARTINI) while retaining SchNet-level accuracy and transferability.
- Abstract(参考訳): SchNetのようなグラフニューラルネットワーク(GNN)のポテンシャルは、多体相互作用を学習することで分子動力学(MD)シミュレーションの精度と伝達性を改善するが、断片化されたカーネルやGPUを未利用のメモリバウンドパイプラインによって古典的な力場よりも遅い。
我々は,GPU高帯域メモリ(HBM)とオンチップSRAM間の読み書きを慎重に考慮し,GNN-MD IOを意識する原理を欠いていることを示す。
我々は,(1)フラッシュラジアルベース,(1)ペアワイズ距離計算,ガウス基底展開,コサインエンベロープを単一階層パスに融合し,各距離を一度計算し,すべての基底関数にわたって再利用するフラッシュメッセージパッシング,(2)カットオフ,隣接するアグリゲーション,フィルタ乗算,およびHBMのエッジテンソルの物質化を回避するためのフラッシュメッセージパッシング,(3)フラッシュアグリゲーション,(3)スキャッタアサートをCSRセグメントで再構成するフラッシュアグリゲーション,機能次元の因子によるアトミック書き込みの低減,および前方および後方パスでのコンテントフリー集積の実現,(4)チャネルワイズ16ビットの量子化。
1つのNVIDIA RTX PRO 6000では、FlashSchNetは269のビーズ(CGSchNetベースラインより6.5倍高速、ピークメモリの80%削減)を含む64個の粗粒(CG)タンパク質上の64個の並列レプリカ上で、1日当たり1000 nsの集約シミュレーションスループットを達成し、SchNetレベルの精度と転送性を維持しながら、古典的な力場(例えばMARTINI)を上回っている。
関連論文リスト
- Implementation of high-efficiency, lightweight residual spiking neural network processor based on field-programmable gate arrays [0.49806798459446283]
この研究は、アルゴリズムとハードウェアの共同設計を組み合わせて推論エネルギー効率を最適化する効率的な残留SNN加速器を提案する。
提案プロセッサは,CIFAR-10データセットの分類精度87.11%,画像あたり3.98ms,エネルギー効率183.5FPS/Wを実現している。
論文 参考訳(メタデータ) (2025-12-09T02:08:46Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - Machine learning-driven conservative-to-primitive conversion in hybrid piecewise polytropic and tabulated equations of state [0.1572025118388268]
本稿では,流体力学シミュレーションにおける保守的・原始的逆転を高速化する機械学習(ML)手法を提案する。
我々は、フィードフォワードニューラルネットワーク(NNC2PSとNC2PL)を採用し、PyTorchでトレーニングし、NVIDIARTを用いたGPU推論に最適化した。
NNC2PS推論用の混合精度RTエンジンは、データセットサイズ1000,000点の従来のシングルスレッド実装よりも約400倍高速である。
論文 参考訳(メタデータ) (2024-12-10T19:00:01Z) - BasisN: Reprogramming-Free RRAM-Based In-Memory-Computing by Basis Combination for Deep Neural Networks [9.170451418330696]
本研究では,任意のクロスバー上のディープニューラルネットワーク(DNN)をリプログラミングせずに高速化するBasisNフレームワークを提案する。
その結果, クロスバーに再プログラミングを適用する場合と比較して, 推論毎のサイクルとエネルギー遅延生成物は1%以下に削減された。
論文 参考訳(メタデータ) (2024-07-04T08:47:05Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - RNNAccel: A Fusion Recurrent Neural Network Accelerator for Edge
Intelligence [2.055204980188575]
我々は、RNNAccelと呼ばれるRNNディープラーニングアクセラレータを提示する。
LSTM(Long Short-Term Memory)ネットワーク、GRU(Gated Recurrent Unit)ネットワーク、FC(Fully Connected Layer)/MLP(Multiple-Perceptron Layer)ネットワークをサポートする。
32-MAC RNNアクセラレータは90%のMAC利用、40nmプロセスで1.27TOP/W、圧縮比8倍、推測精度90%を達成する。
論文 参考訳(メタデータ) (2020-10-26T03:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。