論文の概要: Chasing Elusive Memory Bugs in GPU Programs
- arxiv url: http://arxiv.org/abs/2601.21552v1
- Date: Thu, 29 Jan 2026 11:13:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.757411
- Title: Chasing Elusive Memory Bugs in GPU Programs
- Title(参考訳): GPUプログラムにおける究極的なメモリバッギング
- Authors: Anubhab Ghosh, Ajay Nayak, Dhananjay Rao Thallikar Shyam, Arkaprava Basu,
- Abstract要約: GPUプログラムのアウトオブバウンドアクセス(OOB)のようなメモリ安全性のバグは、GPUアクセラレーションされたソフトウェアのセキュリティと信頼性を損なう可能性がある。
SCuBAは、CPUとGPUのコードを分析し、セマンティックリレーションをキャプチャする(もしあるなら)。
NVIDIAのCompute Sanitizerは、20のプログラムで45のメモリバグを見逃しているのに対し、SCuBAは誤報なしで見逃している。
- 参考スコア(独自算出の注目度): 2.7752002595974172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory safety bugs, such as out-of-bound accesses (OOB) in GPU programs, can compromise the security and reliability of GPU-accelerated software. We report the existence of input-dependent OOBs in the wild that manifest only under specific inputs. All existing tools to detect OOBs in GPU programs rely on runtime techniques that require an OOB to manifest for detection. Thus, input-dependent OOBs elude them. We also discover intra-allocation OOBs that arise in the presence of logical partitioning of a memory allocation into multiple data structures. Existing techniques are oblivious to the possibility of such OOBs. We make a key observation that the presence (or absence) of semantic relations among program variables, which determines the size of allocations (CPU code) and those calculating offsets into memory allocations (GPU code), helps identify the absence (or presence) of OOBs. We build SCuBA, a first-of-its-kind compile-time technique that analyzes CPU and GPU code to capture such semantic relations (if present). It uses a SAT solver to check if an OOB access is possible under any input, given the captured relations expressed as constraints. It further analyzes GPU code to track logical partitioning of memory allocations for detecting intra-allocation OOB. Compared to NVIDIA's Compute Sanitizer that misses 45 elusive memory bugs across 20 programs, SCuBA misses none with no false alarms.
- Abstract(参考訳): GPUプログラムのアウトオブバウンドアクセス(OOB)のようなメモリ安全性のバグは、GPUアクセラレーションされたソフトウェアのセキュリティと信頼性を損なう可能性がある。
我々は,特定の入力の下でのみ現れる入力依存型OOBの存在を報告した。
GPUプログラムでOOBを検出する既存のツールはすべて、検出のためにOOBを必要とするランタイム技術に依存している。
したがって、入力依存のOOBはそれらを除去する。
また,複数のデータ構造にメモリ割り当ての論理的パーティショニングが存在する場合に発生するアロケーション内OOBも発見する。
既存の技術は、そのようなOOBの可能性を隠蔽している。
プログラム変数間の意味的関係(CPUコード)の存在と,メモリアロケーション(GPUコード)へのオフセット計算(オフセット計算)がOOBの不在(あるいは存在)を識別する上で有効であることを示す。
SCuBAは、CPUとGPUのコードを分析して、そのようなセマンティックな関係をキャプチャする(もしあるなら)。
SATソルバを使用して、任意の入力でOOBアクセスが可能かどうかをチェックする。
さらにGPUコードを分析して、メモリ割り当ての論理的パーティショニングを追跡して、位置内OOBを検出する。
NVIDIAのCompute Sanitizerは、20のプログラムで45のメモリバグを見逃しているのに対し、SCuBAは誤報なしで見逃している。
関連論文リスト
- How Would Oblivious Memory Boost Graph Analytics on Trusted Processors? [8.661898399197089]
私たちは、アクセスパターン攻撃に弱い重要なアプリケーションであるグラフ分析に焦点を当てています。
ストレージ構造とアルゴリズムの共設計により、コアあたりのキャッシュサイズがOMの場合、プロトタイプシステムはベースラインよりも100倍高速になります。
これにより、信頼性のあるプロセッサをOMに装備する際の洞察が得られる。
論文 参考訳(メタデータ) (2025-12-30T14:28:29Z) - Valori: A Deterministic Memory Substrate for AI Systems [0.0]
Valoriは、浮動小数点メモリ操作を固定点演算に置き換える決定論的AIメモリ基板である。
バロリがメモリ境界における決定性をどのように強制するかを示す。
以上の結果から,決定論的記憶は信頼に値するAIシステムに必要なプリミティブであることが示唆された。
論文 参考訳(メタデータ) (2025-12-25T06:04:04Z) - xMem: A CPU-Based Approach for Accurate Estimation of GPU Memory in Deep Learning Training Workloads [2.2991119948183525]
ジョブがどれだけのGPUメモリを必要とするかを推定することは、高度なスケジューリングとGPUの共有を可能にするための基本となる。
我々は、CPUのみの動的解析を利用してGPUメモリのピーク要求を正確に推定する新しいフレームワークであるxMemを提案する。
ANOVAとMonte Carloの結果を含む5209実行の解析は、xMemのメリットを強調している。
論文 参考訳(メタデータ) (2025-10-23T23:16:27Z) - Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。
アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。
状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文 参考訳(メタデータ) (2024-12-02T06:57:46Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - Host-Based Allocators for Device Memory [1.2289361708127877]
割り当てアルゴリズムはホストメモリ上で実行されるが、デバイスメモリを割り当てるので、アロケータはアロケータが割り当てているメモリを読み取ることができない。
これはつまり,ほぼすべてのアロケーションアルゴリズムにおいて,ユビキタスな概念である境界タグを使用できない,ということです。
本稿では,この制約を回避するための代替アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-11T19:28:37Z) - Semiring Primitives for Sparse Neighborhood Methods on the GPU [16.56995698312561]
スパース半環プリミティブは、幅広い臨界距離測度をサポートするのに十分な柔軟性を持つことができる。
このプリミティブは、多くの近隣情報検索と機械学習アルゴリズムがスパース入力を受け付けるための基礎的なコンポーネントである。
論文 参考訳(メタデータ) (2021-04-13T17:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。