Fugu-MT 論文翻訳(概要): Optimized thread-block arrangement in a GPU implementation of a linear solver for atmospheric chemistry mechanisms

論文の概要: Optimized thread-block arrangement in a GPU implementation of a linear solver for atmospheric chemistry mechanisms

arxiv url: http://arxiv.org/abs/2405.17363v1
Date: Mon, 27 May 2024 17:12:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 14:23:58.802939
Title: Optimized thread-block arrangement in a GPU implementation of a linear solver for atmospheric chemistry mechanisms
Title（参考訳）: 大気化学機構のための線形解法GPU実装におけるスレッドブロック配置の最適化
Authors: Christian Guzman Ruiz, Mario Acosta, Oriol Jorba, Eduardo Cesar Galobardes, Matthew Dawson, Guillermo Oyarzun, Carlos Pérez García-Pando, Kim Serradell,
Abstract要約: 地球系モデル (ESM) は、大気化学プロセスを解決するために重要なハードウェア資源とエネルギー消費を必要とする。最近の研究では、GPUアクセラレータ上でこれらのモデルを実行することで、パフォーマンスが改善されている。本研究は,Block-cellsと呼ばれるGPU上でのケミカルソルバの計算負荷の最適化分布を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Earth system models (ESM) demand significant hardware resources and energy consumption to solve atmospheric chemistry processes. Recent studies have shown improved performance from running these models on GPU accelerators. Nonetheless, there is room for improvement in exploiting even more GPU resources. This study proposes an optimized distribution of the chemical solver's computational load on the GPU, named Block-cells. Additionally, we evaluate different configurations for distributing the computational load in an NVIDIA GPU. We use the linear solver from the Chemistry Across Multiple Phases (CAMP) framework as our test bed. An intermediate-complexity chemical mechanism under typical atmospheric conditions is used. Results demonstrate a 35x speedup compared to the single-CPU thread reference case. Even using the full resources of the node (40 physical cores) on the reference case, the Block-cells version outperforms them by 50%. The Block-cells approach shows promise in alleviating the computational burden of chemical solvers on GPU architectures.
Abstract（参考訳）: 地球系モデル(ESM)は、大気化学プロセスを解決するために重要なハードウェア資源とエネルギー消費を必要とする。最近の研究では、GPUアクセラレータ上でこれらのモデルを実行することで、パフォーマンスが改善されている。それにもかかわらず、より多くのGPUリソースを利用するための改善の余地はあります。本研究は,Block-cellsと呼ばれるGPU上でのケミカルソルバの計算負荷の最適化分布を提案する。さらに、NVIDIA GPUで計算負荷を分散するための異なる構成を評価する。テストベッドとして,CAMP(Chemic Across Multiple Phases)フレームワークの線形解法を用いる。典型的な大気条件下での中間複雑化学機構を用いる。結果は、シングルCPUスレッド参照ケースと比較して35倍のスピードアップを示した。参照ケースのノードの全リソース(40の物理コア)を使用しても、Block-cellsバージョンは50%パフォーマンスが向上する。 Block-cellsアプローチは、GPUアーキテクチャにおける化学解決器の計算負担を軽減することを約束している。

関連論文リスト

GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions [54.570944939061555]
本稿では,GPU加速グラフに基づくベクトル探索アルゴリズムについて包括的に研究する。我々は、GPU最適化戦略の詳細な分類を確立し、アルゴリズムタスクとハードウェア実行ユニット間のマッピングを明確にする。我々の発見は、スケーラブルで堅牢なGPUベースの近接検索システムを設計するための明確なガイドラインを提供する。
論文参考訳（メタデータ） (2026-02-10T16:18:04Z)
GaDE -- GPU-acceleration of time-dependent Dirac Equation for exascale [0.0]
GaDEは相対論的状態における電磁場によって誘起される原子の電子動力学をシミュレートするように設計されている。 AMD MI250X GPU と Hewlett-Packard の Slingshot 相互接続を用いた LUMI による GaDE の評価を行った。
論文参考訳（メタデータ） (2025-12-25T14:47:36Z)
Investigating Matrix Repartitioning to Address the Over- and Undersubscription Challenge for a GPU-based CFD Solver [0.688204255655161]
既存のアプローチは、完全にあるいはプラグインベースのGPUソルバを使用しており、それぞれがパフォーマンスと開発努力のトレードオフに直面している。本稿では、CPU行列アセンブリとGPUベースの線形解のバランスを改善するための分割戦略を提案する。提案手法は, オーバーサブスクライブ問題を大幅に軽減し, ソルバ性能の向上と資源利用率の向上を図っている。
論文参考訳（メタデータ） (2025-10-09T17:53:12Z)
PICT -- A Differentiable, GPU-Accelerated Multi-Block PISO Solver for Simulation-Coupled Learning Tasks in Fluid Dynamics [59.38498811984876]
我々はPyTorchで符号化された可変圧単純化解器であるPICTをGPU(Graphics-Processing-unit)をサポートした流体シミュレータとして提案する。まず,様々なベンチマークにおいて,フォワードシミュレーションと導出した勾配の精度を検証した。 2次元, 3次元の複雑な乱流モデルの学習には, 解法によって得られる勾配が有効であることを示す。
論文参考訳（メタデータ） (2025-05-22T17:55:10Z)
GPU accelerated program synthesis: Enumerate semantics, not syntax! [1.3422713954544112]
入力正および負のサンプルトレースとしてGPU上で動作する合成器を構築し、正のトレースを受け入れて負のトレースを拒否する論理式を返す。 GPUに親しみやすいプログラミング技術では、我々の合成器ははるかに大きな合成問題にスケールし、以前のCPUベースの最先端技術よりもはるかに高速に動作します。
論文参考訳（メタデータ） (2025-04-26T15:06:37Z)
HeterMoE: Efficient Training of Mixture-of-Experts Models on Heterogeneous GPUs [26.00138507762884]
HeterMoEは、異種GPU上でMoEモデルを効率的にトレーニングするシステムである。 HeterMoEは既存のMoEトレーニングシステムと比較して最大2.3倍のスピードアップを実現している。
論文参考訳（メタデータ） (2025-04-04T18:55:52Z)
A GPU Implementation of Multi-Guiding Spark Fireworks Algorithm for Efficient Black-Box Neural Network Optimization [2.9608128305931825]
本稿では,Multi-Guiding Spark Fireworks Algorithm (MGFWA)のGPU高速化版を提案する。スピードとソリューションの品質の両方において、その優れた性能を示します。提案した実装は、Swarmインテリジェンスアルゴリズムを高速化するための有望なアプローチを提供する。
論文参考訳（メタデータ） (2025-01-07T17:09:07Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
Advanced Techniques for High-Performance Fock Matrix Construction on GPU Clusters [0.0]
opt-UM と opt-Brc は、Hartree-Fock のケーキュレーションを$f$型角運動量関数に拡張した。 Opt-Brc はより小さな系と高度に収縮された三価ゼータの基底集合に対して優れ、オプト-UM は大きな分子系に対して有利である。
論文参考訳（メタデータ） (2024-07-31T08:49:06Z)
Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文参考訳（メタデータ） (2024-07-29T00:14:10Z)
Introducing GPU-acceleration into the Python-based Simulations of Chemistry Framework [4.368931200886271]
我々はPySCFのメソッドのGPUアクセラレーションを提供するモジュールであるGPU4PySCFの最初のバージョンを紹介する。ベンチマーク計算は、PySCFのマルチスレッドCPUHartree-Fockコードに対して、2桁の大幅な高速化を示している。
論文参考訳（メタデータ） (2024-07-12T21:50:19Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
Efficient GPU implementation of randomized SVD and its applications [17.71779625877989]
行列分解は、次元データの圧縮やディープラーニングアルゴリズムなど、機械学習においてユビキタスである。行列分解の典型的な解は、計算コストと時間を大幅に増大させる複雑さを持つ。我々は,計算行列分解の計算負担を軽減するために,現代のグラフィカル処理ユニット(GPU)で並列に動作する効率的な処理操作を利用する。
論文参考訳（メタデータ） (2021-10-05T07:42:41Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with Fine-Grain Utilization [5.02836935036198]
本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュール可能なRTGPUを提案する。提案手法は,従来の作業に比べてスケジューリング性に優れ,複数のGPUアプリケーションに厳しい期限をリアルタイムに保証する。
論文参考訳（メタデータ） (2021-01-25T22:34:06Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)
MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文参考訳（メタデータ） (2020-04-16T16:20:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。