論文の概要: A Case For Host Code Guided GPU Data Race Detector
- arxiv url: http://arxiv.org/abs/2604.02106v1
- Date: Thu, 02 Apr 2026 14:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.859324
- Title: A Case For Host Code Guided GPU Data Race Detector
- Title(参考訳): ホストコード誘導型GPUデータ競合検出器の1例
- Authors: Ajay Nayak, Anubhab Ghosh, Arkaprava Basu,
- Abstract要約: GPUプログラムのデータ競合は、GPUが加速するソフトウェアスタックの信頼性に脅威をもたらす。
以前の研究では、GPUプログラムのレースを検出するために、さまざまな動的(ランタイム)および静的(コンパイル時)技術が提案されていた。
我々はHGRDという最先端の静的解析技術を開発し、CPUとGPUの両方のコードに対して総合的な解析を行う。
- 参考スコア(独自算出の注目度): 3.031706914582872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data races in GPU programs pose a threat to the reliability of GPU-accelerated software stacks. Prior works proposed various dynamic (runtime) and static (compile-time) techniques to detect races in GPU programs. However, dynamic techniques often miss critical races, as they require the races to manifest during testing. While static ones can catch such races, they often generate numerous false alarms by conservatively assuming values of variables/parameters that cannot ever occur during any execution of the program. We make a key observation that the host (CPU) code that launches GPU kernels contains crucial semantic information about the values that the GPU kernel's parameters can take during execution. Harnessing this hitherto overlooked information helps accurately detect data races in GPU kernel code. We create HGRD, a new state-of-the-art static analysis technique that performs a holistic analysis of both CPU and GPU code to accurately detect a broad set of true races while minimizing false alarms. While SOTA dynamic techniques, such as iGUARD, miss many true races, HGRD misses none. On the other hand, static techniques such as GPUVerify and FaialAA raise tens of false alarms, where HGRD raises none.
- Abstract(参考訳): GPUプログラムのデータ競合は、GPUが加速するソフトウェアスタックの信頼性に脅威をもたらす。
以前の研究では、GPUプログラムのレースを検出するために、さまざまな動的(ランタイム)および静的(コンパイル時)技術が提案されていた。
しかしながら、動的テクニックは、テスト中にレースを提示する必要があるため、クリティカルレースを見逃すことが多い。
静的な競合はそのような競合をキャッチできるが、プログラムの実行中に発生しない変数/パラメータの値を保守的に仮定することで、多数の偽のアラームを生成することが多い。
我々は、GPUカーネルを起動するホスト(CPU)コードが、実行中にGPUカーネルのパラメータが取ることのできる値に関する重要な意味情報を含んでいることを重要な観察を行う。
この見落としている情報は、GPUカーネルコードのデータの競合を正確に検出するのに役立ちます。
我々は新しい最先端の静的解析技術であるHGRDを作成し、CPUとGPUのコードの総合的な解析を行い、偽アラームを最小化しながら、広範囲の真のレースを正確に検出する。
iGUARDのようなSOTA動的テクニックは多くの真のレースを見逃すが、HGRDは見逃さない。
一方、GPUVerifyやFaialAAのような静的なテクニックは、HGRDでは発生しない偽のアラーム数を増やしている。
関連論文リスト
- GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions [54.570944939061555]
本稿では,GPU加速グラフに基づくベクトル探索アルゴリズムについて包括的に研究する。
我々は、GPU最適化戦略の詳細な分類を確立し、アルゴリズムタスクとハードウェア実行ユニット間のマッピングを明確にする。
我々の発見は、スケーラブルで堅牢なGPUベースの近接検索システムを設計するための明確なガイドラインを提供する。
論文 参考訳(メタデータ) (2026-02-10T16:18:04Z) - xMem: A CPU-Based Approach for Accurate Estimation of GPU Memory in Deep Learning Training Workloads [2.2991119948183525]
ジョブがどれだけのGPUメモリを必要とするかを推定することは、高度なスケジューリングとGPUの共有を可能にするための基本となる。
我々は、CPUのみの動的解析を利用してGPUメモリのピーク要求を正確に推定する新しいフレームワークであるxMemを提案する。
ANOVAとMonte Carloの結果を含む5209実行の解析は、xMemのメリットを強調している。
論文 参考訳(メタデータ) (2025-10-23T23:16:27Z) - GPU-Accelerated Interpretable Generalization for Rapid Cyberattack Detection and Forensics [0.0]
IGメカニズムは最近IEEE Transactions on Information Forensics and Securityで公開され、最先端のエビデンスベースの侵入検知を提供する。
我々は、PyTorchの再設計であるIG-GPUを紹介し、すべてのペアの交叉とサブセット評価をコモディティGPUにオフロードする。
15kレコードのNSL-KDDデータセットでは、IG-GPUはIGのマルチコアCPU実装よりも116倍のスピードアップを示している。
論文 参考訳(メタデータ) (2025-07-16T12:38:19Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - HardRace: A Dynamic Data Race Monitor for Production Use [15.566618111423702]
データレースはマルチスレッドプログラムにおいて重要な問題であり、予測できない、破滅的な、診断が難しい問題を引き起こします。
我々は、十分なランタイムオーバーヘッドと高い検出能力を持ちながら、オンザフライでのレースを検出するデータレースモニターであるHardRaceを紹介した。
論文 参考訳(メタデータ) (2024-10-24T03:59:02Z) - Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent [48.791943145735]
カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。
このアプローチを、Ansorが生成した最初の300のカーネルに適用する。
この結果は20の有名なディープラーニングモデルで再現されている。
論文 参考訳(メタデータ) (2024-06-28T16:34:22Z) - SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。
また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。
近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文 参考訳(メタデータ) (2024-03-25T15:26:50Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with
Fine-Grain Utilization [5.02836935036198]
本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュール可能なRTGPUを提案する。
提案手法は,従来の作業に比べてスケジューリング性に優れ,複数のGPUアプリケーションに厳しい期限をリアルタイムに保証する。
論文 参考訳(メタデータ) (2021-01-25T22:34:06Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。