論文の概要: Making Room for AI: Multi-GPU Molecular Dynamics with Deep Potentials in GROMACS
- arxiv url: http://arxiv.org/abs/2604.07276v1
- Date: Wed, 08 Apr 2026 16:40:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.641256
- Title: Making Room for AI: Multi-GPU Molecular Dynamics with Deep Potentials in GROMACS
- Title(参考訳): AIのためのMake Room:GROMACSの深いポテンシャルを持つマルチGPU分子動力学
- Authors: Luca Pennati, Andong Hu, Ivy Peng, Lukas Müllender, Stefano Markidis,
- Abstract要約: MDスループットでほぼ量子精度を追求するAI駆動の原子間ポテンシャルは、現在大きな課題となっている。
MLIPフレームワークであるDeePMD-kitをGROMACSに統合し、ドメイン分解GPU高速化推論を可能にする。
強いスケーリング効率は16デバイスで66%、32デバイスで40%、弱いスケーリング効率は80%から16デバイスで48%(MI250x)、32デバイスで40%(A100)に達する。
- 参考スコア(独自算出の注目度): 0.050188155804360805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GROMACS is a de-facto standard for classical Molecular Dynamics (MD). The rise of AI-driven interatomic potentials that pursue near-quantum accuracy at MD throughput now poses a significant challenge: embedding neural-network inference into multi-GPU simulations retaining high-performance. In this work, we integrate the MLIP framework DeePMD-kit into GROMACS, enabling domain-decomposed, GPU-accelerated inference across multi-node systems. We extend the GROMACS NNPot interface with a DeePMD backend, and we introduce a domain decomposition layer decoupled from the main simulation. The inference is executed concurrently on all processes, with two MPI collectives used each step to broadcast coordinates and to aggregate and redistribute forces. We train an in-house DPA-1 model (1.6 M parameters) on a dataset of solvated protein fragments. We validate the implementation on a small protein system, then we benchmark the GROMACS-DeePMD integration with a 15,668 atom protein on NVIDIA A100 and AMD MI250x GPUs up to 32 devices. Strong-scaling efficiency reaches 66% at 16 devices and 40% at 32; weak-scaling efficiency is 80% to 16 devices and reaches 48% (MI250x) and 40% (A100) at 32 devices. Profiling with the ROCm System profiler shows that >90% of the wall time is spent in DeePMD inference, while MPI collectives contribute <10%, primarily since they act as a global synchronization point. The principal bottlenecks are the irreducible ghost-atom cost set by the cutoff radius, confirmed by a simple throughput model, and load imbalance across ranks. These results demonstrate that production MD with near ab initio fidelity is feasible at scale in GROMACS.
- Abstract(参考訳): GROMACSは古典分子動力学(MD)のデファクト標準である。
MDスループットで量子に近い精度を追求するAI駆動の原子間ポテンシャルの台頭は、現在重大な課題となっている。
本研究では,MLIPフレームワークのDeePMD-kitをGROMACSに統合し,マルチノードシステム間でのドメイン分解GPU高速化推論を実現する。
GROMACS NNPot インタフェースを DeePMD バックエンドで拡張し,本シミュレーションから分離した領域分解層を導入する。
推論はすべてのプロセスで同時に実行され、2つのMPI集合体が各ステップで座標をブロードキャストし、力を集約し再分配するために使用される。
我々は, タンパク質断片のデータセット上で, 社内DPA-1モデル (1.6Mパラメータ) を訓練する。
我々は,小タンパク質システムの実装を検証し,最大32デバイスまでのNVIDIA A100およびAMD MI250x GPU上の15,668原子タンパク質とのGROMACS-DeePMD統合をベンチマークした。
強いスケーリング効率は16デバイスで66%、32デバイスで40%、弱いスケーリング効率は80%から16デバイスで48%(MI250x)、32デバイスで40%(A100)に達する。
ROCm Systemプロファイラによるプロファイリングでは、壁時間の90%がDeePMD推論に費やされているのに対し、MPI集合体は、主にグローバル同期点として機能するため、10%以下に寄与している。
主なボトルネックは、カットオフ半径によって設定される既約ゴースト原子コストであり、単純なスループットモデルによって確認され、ランク間の負荷不均衡である。
以上の結果から, GROMACSでは, ほぼ初期忠実な生産MDが大規模に実現可能であることが示唆された。
関連論文リスト
- Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory [76.63021613850093]
我々は、生涯にわたるAIエージェントのための統合マルチモーダルメモリフレームワークであるOmni-SimpleMemを発見するために、自律的な研究パイプラインをデプロイする。
システムは2つのベンチマークで最先端を実現し、LoCoMoではF1を+411%改善し、Mem-Galleryでは+214%向上した。
本稿では,6種類の発見型を分類し,特に自動検索に適したマルチモーダルメモリを実現する4つの特性を同定する。
論文 参考訳(メタデータ) (2026-04-01T15:06:23Z) - SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation [18.60155862524957]
医用画像セグメンテーションの最先端モデルは精度が高いが、かなりの計算資源を必要とする。
計算要求を大幅に削減しつつ,最先端の精度を実現する,効率の良い2.5DフレームワークであるSegMateを提案する。
論文 参考訳(メタデータ) (2026-02-27T10:50:55Z) - PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning [51.24484551729328]
PRISMは,IMLEのバッチ・グロバル・リジェクション・サンプリングに基づく単一パスポリシーである。
PRISMは、Performerアーキテクチャを用いた線形アテンション発生器と時間的マルチセンサエンコーダを結合する。
7-DoFアームD1を搭載したUnitree Go2を用いたロコマニピュレーションやUR5マニピュレータを用いたテーブルトップ操作など,PRISMの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-02T17:57:37Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - TinyMyo: a Tiny Foundation Model for Flexible EMG Signal Processing at the Edge [14.115504534589896]
表面筋電図(EMG)の軽量基礎モデルTinyMyoについて述べる。
このモデルは、公開データセット上で自己管理的な方法で事前訓練され、3.6Mパラメータのみで高い再構成忠実度を達成する。
手のジェスチャー分類、手動回帰、音声生成、音声認識における一般化を実証し、その性能は最先端技術(SoA)に匹敵するか上回っている。
我々は、私たちの知る限り、EMG FMを超低消費電力マイクロコントローラ(GAP9)に初めて展開し、平均電力エンベロープ36.45mWを達成したことを報告している。
論文 参考訳(メタデータ) (2025-12-05T17:36:57Z) - PanFoMa: A Lightweight Foundation Model and Benchmark for Pan-Cancer [54.958921946378304]
トランスフォーマーと状態空間モデルの強みを組み合わせた軽量ハイブリッドニューラルネットワークであるPanFoMaを紹介する。
PanFoMaはフロントエンドのローカルコンテキストエンコーダと共有自己認識層から構成され、複雑で秩序に依存しない遺伝子相互作用をキャプチャする。
また,350万以上の高品質な細胞を含む大規模パンキャンサー単細胞ベンチマークPanFoMaBenchを構築した。
論文 参考訳(メタデータ) (2025-12-02T08:31:31Z) - Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文 参考訳(メタデータ) (2025-10-23T14:02:34Z) - StrikeWatch: Wrist-worn Gait Recognition with Compact Time-series Models on Low-power FPGAs [10.946464973530214]
歩行パターンが良くなると、特に専門家のフィードバックなしに怪我につながることがある。
Wrist-wornウェアラブルは、実用的で非侵襲的な代替手段を提供する。
本稿では,デバイス上でリアルタイム歩行認識を行う小型手首輪システムであるStrikeWatchを紹介する。
論文 参考訳(メタデータ) (2025-10-14T20:28:31Z) - Training Deep Boltzmann Networks with Sparse Ising Machines [5.048818298702389]
深層生成AIモデルをトレーニングすることにより,確率ビット(pビット)ベースのIsingマシンのための新しいアプリケーションドメインを示す。
スパース、非同期、および非常に並列なIsingマシンを使用して、ハイブリッド確率-古典計算設定でディープボルツマンネットワークを訓練する。
論文 参考訳(メタデータ) (2023-03-19T18:10:15Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。