論文の概要: Investigating Matrix Repartitioning to Address the Over- and Undersubscription Challenge for a GPU-based CFD Solver
- arxiv url: http://arxiv.org/abs/2510.08536v1
- Date: Thu, 09 Oct 2025 17:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.282893
- Title: Investigating Matrix Repartitioning to Address the Over- and Undersubscription Challenge for a GPU-based CFD Solver
- Title(参考訳): GPUベースのCFDソルバのオーバー・アンダー・サブスクライブ問題に対処する行列分割の検討
- Authors: Gregor Olenik, Marcel Koch, Hartwig Anzt,
- Abstract要約: 既存のアプローチは、完全にあるいはプラグインベースのGPUソルバを使用しており、それぞれがパフォーマンスと開発努力のトレードオフに直面している。
本稿では、CPU行列アセンブリとGPUベースの線形解のバランスを改善するための分割戦略を提案する。
提案手法は, オーバーサブスクライブ問題を大幅に軽減し, ソルバ性能の向上と資源利用率の向上を図っている。
- 参考スコア(独自算出の注目度): 0.688204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern high-performance computing (HPC) increasingly relies on GPUs, but integrating GPU acceleration into complex scientific frameworks like OpenFOAM remains a challenge. Existing approaches either fully refactor the codebase or use plugin-based GPU solvers, each facing trade-offs between performance and development effort. In this work, we address the limitations of plugin-based GPU acceleration in OpenFOAM by proposing a repartitioning strategy that better balances CPU matrix assembly and GPU-based linear solves. We present a detailed computational model, describe a novel matrix repartitioning and update procedure, and evaluate its performance on large-scale CFD simulations. Our results show that the proposed method significantly mitigates oversubscription issues, improving solver performance and resource utilization in heterogeneous CPU-GPU environments.
- Abstract(参考訳): 現代のハイパフォーマンスコンピューティング(HPC)はGPUにますます依存しているが、OpenFOAMのような複雑な科学フレームワークにGPUアクセラレーションを統合することは依然として課題である。
既存のアプローチではコードベースを完全にリファクタリングするか、プラグインベースのGPUソルバを使用しており、それぞれがパフォーマンスと開発作業のトレードオフに直面している。
本稿では,OpenFOAMにおけるプラグインベースのGPUアクセラレーションの限界に対処するため,CPU行列アセンブリとGPUベースの線形解のバランスを改善するための分割戦略を提案する。
本稿では,新しい行列分割と更新手順を記述し,大規模CFDシミュレーションの性能評価を行う。
提案手法は,CPU-GPU環境におけるオーバサブスクライブ問題を大幅に軽減し,オーバサブスクライブ性能の向上と資源利用率の向上を図っている。
関連論文リスト
- GPU-Accelerated Loopy Belief Propagation for Program Analysis [3.516434517865342]
本稿では,プログラム解析のためのGPU高速化LPPアルゴリズムを提案する。
本稿では,依存関係解析アルゴリズムとともに,任意のユーザ定義更新戦略を指定する統一表現を提案する。
当社のアプローチでは,最先端のシーケンシャルアプローチよりも平均2.14タイム,最先端のGPUベースのアプローチよりも5.56タイムのスピードアップを実現している。
論文 参考訳(メタデータ) (2025-09-26T13:30:30Z) - PICT -- A Differentiable, GPU-Accelerated Multi-Block PISO Solver for Simulation-Coupled Learning Tasks in Fluid Dynamics [59.38498811984876]
我々はPyTorchで符号化された可変圧単純化解器であるPICTをGPU(Graphics-Processing-unit)をサポートした流体シミュレータとして提案する。
まず,様々なベンチマークにおいて,フォワードシミュレーションと導出した勾配の精度を検証した。
2次元, 3次元の複雑な乱流モデルの学習には, 解法によって得られる勾配が有効であることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:55:10Z) - A GPU Implementation of Multi-Guiding Spark Fireworks Algorithm for Efficient Black-Box Neural Network Optimization [2.9608128305931825]
本稿では,Multi-Guiding Spark Fireworks Algorithm (MGFWA)のGPU高速化版を提案する。
スピードとソリューションの品質の両方において、その優れた性能を示します。
提案した実装は、Swarmインテリジェンスアルゴリズムを高速化するための有望なアプローチを提供する。
論文 参考訳(メタデータ) (2025-01-07T17:09:07Z) - Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文 参考訳(メタデータ) (2024-07-29T00:14:10Z) - Optimized thread-block arrangement in a GPU implementation of a linear solver for atmospheric chemistry mechanisms [0.0]
地球系モデル (ESM) は、大気化学プロセスを解決するために重要なハードウェア資源とエネルギー消費を必要とする。
最近の研究では、GPUアクセラレータ上でこれらのモデルを実行することで、パフォーマンスが改善されている。
本研究は,Block-cellsと呼ばれるGPU上でのケミカルソルバの計算負荷の最適化分布を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:12:59Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。