Fugu-MT 論文翻訳(概要): GPUMC: A Stateless Model Checker for GPU Weak Memory Concurrency

論文の概要: GPUMC: A Stateless Model Checker for GPU Weak Memory Concurrency

arxiv url: http://arxiv.org/abs/2505.20207v1
Date: Mon, 26 May 2025 16:47:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 19:27:27.018865
Title: GPUMC: A Stateless Model Checker for GPU Weak Memory Concurrency
Title（参考訳）: GPUMC:GPU弱メモリ並行性のためのステートレスモデルチェッカー
Authors: Soham Chakraborty, S. Krishna, Andreas Pavlogiannis, Omkar Tuppe,
Abstract要約: GPUMCは、スコープドRC11弱いメモリモデルの下でGPU共有メモリプログラムの正しさをチェックするステートレスモデルチェッカーである。ベンチマークとリアルタイムGPUプログラムを用いてGPUMCを評価する。
参考スコア（独自算出の注目度）: 3.1882747895372217
License: http://creativecommons.org/licenses/by/4.0/
Abstract: GPU computing is embracing weak memory concurrency for performance improvement. However, compared to CPUs, modern GPUs provide more fine-grained concurrency features such as scopes, have additional properties like divergence, and thereby follow different weak memory consistency models. These features and properties make concurrent programming on GPUs more complex and error-prone. To this end, we present GPUMC, a stateless model checker to check the correctness of GPU shared-memory concurrent programs under scoped-RC11 weak memory concurrency model. GPUMC explores all possible executions in GPU programs to reveal various errors - races, barrier divergence, and assertion violations. In addition, GPUMC also automatically repairs these errors in the appropriate cases. We evaluate GPUMC with benchmarks and real-life GPU programs. GPUMC is efficient both in time and memory in verifying large GPU programs where state-of-the-art tools are timed out. In addition, GPUMC identifies all known errors in these benchmarks compared to the state-of-the-art tools.
Abstract（参考訳）: GPUコンピューティングは、パフォーマンス改善のために弱いメモリ並行処理を受け入れている。しかし、CPUと比較して、現代のGPUはスコープのようなよりきめ細かい並行処理機能を提供し、分散のような追加の特性を持ち、それによって異なる弱いメモリ一貫性モデルに従う。これらの特徴と特性により、GPU上の並列プログラミングはより複雑でエラーを起こしやすい。そこで本研究では,GPU共有メモリ並列処理プログラムの正しさを確認するためのステートレスモデルチェッカーであるGPUMCを提案する。 GPUMCは、GPUプログラムで可能なすべての実行を調査して、レース、バリアばらつき、アサーション違反など、さまざまなエラーを明らかにしている。さらにGPUMCは、適切なケースでこれらのエラーを自動的に修復する。ベンチマークとリアルタイムGPUプログラムを用いてGPUMCを評価する。 GPUMCは、最先端のツールがタイムアウトされた大規模GPUプログラムの検証において、時間とメモリの両方で効率的である。さらにGPUMCは、最先端のツールと比較して、これらのベンチマークで既知のすべてのエラーを特定する。

関連論文リスト

Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
Characterizing GPU Resilience and Impact on AI/HPC Systems [5.4879032865205986]
現在600ペタプロビジョン以上のピーク計算スループットを持つ大規模AIシステムであるDeltaのGPU障害を特徴付ける。この研究はGPUエラーに関する2年半のデータを用いている。
論文参考訳（メタデータ） (2025-03-14T22:14:18Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
LLMem: Estimating GPU Memory Usage for Fine-Tuning Pre-Trained LLMs [4.536118764799076]
ハードウェアに制限がある微調整済みの大規模言語モデルでは、GPUメモリの制約が問題となっている。 LLMemは、分散微調整法を適用する際のGPUメモリ消費を推定するソリューションである。 LLMemは1つのGPU上でのピークGPUメモリ使用量を正確に推定し、エラー率は最大1.6%であることを示す。
論文参考訳（メタデータ） (2024-04-16T22:11:35Z)
Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文参考訳（メタデータ） (2022-12-28T18:59:28Z)
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文参考訳（メタデータ） (2022-11-19T09:57:01Z)
An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文参考訳（メタデータ） (2022-09-13T14:13:06Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with Fine-Grain Utilization [5.02836935036198]
本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュール可能なRTGPUを提案する。提案手法は,従来の作業に比べてスケジューリング性に優れ,複数のGPUアプリケーションに厳しい期限をリアルタイムに保証する。
論文参考訳（メタデータ） (2021-01-25T22:34:06Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
Out-of-Core GPU Gradient Boosting [0.0]
モデル精度やトレーニング時間を劣化させることなく、より大規模なデータセットを所定のGPUに適合させることができることを示す。グラデーションブースティングのGPU実装としてはこれが初めてだ。
論文参考訳（メタデータ） (2020-05-19T00:41:00Z)
MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文参考訳（メタデータ） (2020-04-16T16:20:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。