論文の概要: Machine learning-driven conservative-to-primitive conversion in hybrid piecewise polytropic and tabulated equations of state
- arxiv url: http://arxiv.org/abs/2412.07836v2
- Date: Wed, 29 Jan 2025 19:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:11:38.584293
- Title: Machine learning-driven conservative-to-primitive conversion in hybrid piecewise polytropic and tabulated equations of state
- Title(参考訳): 階層型多極性と表層型状態方程式における機械学習駆動型保守-原始変換
- Authors: Semih Kacmaz, Roland Haas, E. A. Huerta,
- Abstract要約: 本稿では,流体力学シミュレーションにおける保守的・原始的逆転を高速化する機械学習(ML)手法を提案する。
我々は、フィードフォワードニューラルネットワーク(NNC2PSとNC2PL)を採用し、PyTorchでトレーニングし、NVIDIARTを用いたGPU推論に最適化した。
NNC2PS推論用の混合精度RTエンジンは、データセットサイズ1000,000点の従来のシングルスレッド実装よりも約400倍高速である。
- 参考スコア(独自算出の注目度): 0.2999888908665658
- License:
- Abstract: We present a novel machine learning (ML) method to accelerate conservative-to-primitive inversion, focusing on hybrid piecewise polytropic and tabulated equations of state. Traditional root-finding techniques are computationally expensive, particularly for large-scale relativistic hydrodynamics simulations. To address this, we employ feedforward neural networks (NNC2PS and NNC2PL), trained in PyTorch and optimized for GPU inference using NVIDIA TensorRT, achieving significant speedups with minimal accuracy loss. The NNC2PS model achieves $ L_1 $ and $ L_\infty $ errors of $ 4.54 \times 10^{-7} $ and $ 3.44 \times 10^{-6} $, respectively, while the NNC2PL model exhibits even lower error values. TensorRT optimization with mixed-precision deployment substantially accelerates performance compared to traditional root-finding methods. Specifically, the mixed-precision TensorRT engine for NNC2PS achieves inference speeds approximately 400 times faster than a traditional single-threaded CPU implementation for a dataset size of 1,000,000 points. Ideal parallelization across an entire compute node in the Delta supercomputer (Dual AMD 64 core 2.45 GHz Milan processors; and 8 NVIDIA A100 GPUs with 40 GB HBM2 RAM and NVLink) predicts a 25-fold speedup for TensorRT over an optimally-parallelized numerical method when processing 8 million data points. Moreover, the ML method exhibits sub-linear scaling with increasing dataset sizes. We release the scientific software developed, enabling further validation and extension of our findings. This work underscores the potential of ML, combined with GPU optimization and model quantization, to accelerate conservative-to-primitive inversion in relativistic hydrodynamics simulations.
- Abstract(参考訳): 本稿では,保守的から原始的への逆転を加速させる機械学習(ML)手法を提案する。
特に大規模相対論的流体力学シミュレーションでは、従来の根の固定技術は計算に高価である。
これを解決するために、PyTorchでトレーニングされたフィードフォワードニューラルネットワーク(NNC2PSとNC2PL)を採用し、NVIDIA TensorRTを用いたGPU推論に最適化し、精度の低下を最小限に抑えた大幅な高速化を実現した。
NNC2PSモデルは、それぞれ$L_1 $と$L_\infty $エラーが$4.54 \times 10^{-7} $と$3.44 \times 10^{-6} $を達成する一方、NC2PLモデルは更に低いエラー値を示す。
混合精度デプロイメントによるTensorRT最適化は、従来のルートフィンディング手法と比較して、パフォーマンスを大幅に向上させる。
具体的には、NCC2PS用の混合精度TensorRTエンジンは、データセットサイズ1000,000ポイントの従来のシングルスレッドCPU実装の約400倍の速度で推論を実現する。
Deltaスーパーコンピュータの計算ノード全体(デュアルAMD 64コア2.45GHzミラノプロセッサ、40GB HBM2 RAMとNVLinkの8つのNVIDIA A100 GPU)における理想的な並列化は、800万のデータポイントを処理するときの最適並列化数値法よりも、TensorRTの25倍の高速化を予測している。
さらに,ML法では,データセットサイズが増大するに従って,サブ線形スケーリングを行う。
我々は,研究成果のさらなる検証と拡張を可能にするために開発した科学ソフトウェアをリリースする。
この研究は、相対論的流体力学シミュレーションにおいて、MLがGPU最適化とモデル量子化と組み合わせて、保守的から原始的逆転を加速する可能性を強調している。
関連論文リスト
- Compilation of Trotter-Based Time Evolution for Partially Fault-Tolerant Quantum Computing Architecture [0.6449786007855248]
2次元ハバードモデルハミルトンの時間発展をシミュレーションする効率的な方法を提案する。
解析の結果, 単純直列コンパイルに比べて10倍以上の高速化が得られた。
物理誤差率が$p_rm phys = 10-4$のデバイスの場合、地上でのエネルギー推定を高速化するためには、およそ6.5倍 104$ の物理量子ビットが必要であると推定する。
論文 参考訳(メタデータ) (2024-08-27T10:07:34Z) - Transformer neural networks and quantum simulators: a hybrid approach for simulating strongly correlated systems [1.6494451064539348]
本稿では、数値データや実験データによるデータ駆動事前学習と、ハミルトン駆動最適化の第2段階を含む、ニューラル量子状態(NQS)のハイブリッド最適化手法を提案する。
我々の研究は、ニューラル量子状態の信頼性と効率的な最適化の道を開いた。
論文 参考訳(メタデータ) (2024-05-31T17:55:27Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Boosting the effective performance of massively parallel tensor network
state algorithms on hybrid CPU-GPU based architectures via non-Abelian
symmetries [0.0]
Wigner-Eckhart定理に基づく非アベリア対称性関連テンソル代数は、従来のテンソルネットワーク層から完全に分離されている。
我々は、計算複雑性の観点からarXiv:2305.05581で報告された結果に対し、桁違いの性能向上を達成した。
提案手法の有効性能は250-500TFLOPSと推定される。
論文 参考訳(メタデータ) (2023-09-23T07:49:53Z) - Geometry-Informed Neural Operator for Large-Scale 3D PDEs [76.06115572844882]
大規模偏微分方程式の解演算子を学習するために,幾何インフォームド・ニューラル演算子(GINO)を提案する。
我々はGINOを訓練し、わずか500点のデータポイントで車両表面の圧力を予測することに成功した。
論文 参考訳(メタデータ) (2023-09-01T16:59:21Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - CSM-NN: Current Source Model Based Logic Circuit Simulation -- A Neural
Network Approach [5.365198933008246]
CSM-NNは、最適化されたニューラルネットワーク構造と処理アルゴリズムを備えたスケーラブルなシミュレーションフレームワークである。
実験によると、CSM-NNはCPU上で動作する最先端のソースモデルベースのシミュレータと比較して、シミュレーション時間を最大6倍に短縮する。
CSM-NNはまた、HSPICEと比較して2%以下の誤差で高い精度のレベルを提供する。
論文 参考訳(メタデータ) (2020-02-13T00:29:44Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。