Fugu-MT 論文翻訳(概要): Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

論文の概要: Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

arxiv url: http://arxiv.org/abs/2603.24595v1
Date: Fri, 06 Mar 2026 04:13:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 02:36:13.030789
Title: Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels
Title（参考訳）: Model2Kernel: 安全なCUDAカーネルのためのモデル対応シンボリック実行
Authors: Mengting He, Shihao Xia, Haomin Jia, Wenfei Wu, Linhai Song,
Abstract要約: プロダクション推論システムはコア操作を実装するためにカーネルに依存している。メモリセーフティのバグは、モデルの重み付けを破損させたり、推論サービスをクラッシュさせたり、あるいは敵攻撃も可能になったりする。本稿では,推論に使用されるカーネルのメモリ安全性を自動検証する最初の実用システムであるModel2 Kernelを提案する。
参考スコア（独自算出の注目度）: 6.682299469816275
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The widespread adoption of large language models (LLMs) has made GPU-accelerated inference a critical part of modern computing infrastructure. Production inference systems rely on CUDA kernels to implement core transformer operations, yet these kernels are highly susceptible to memory-safety bugs due to model-dependent tensor layouts, intricate memory indexing, and massive thread-level parallelism. Such bugs can corrupt model weights, crash inference services, or even enable adversarial attacks. Existing techniques either depend on unavailable hardware, incur high overhead, or fail to handle kernel inputs with variable lengths, and none can effectively detect CUDA memory bugs in LLM inference systems. This paper presents Model2Kernel, the first practical system for automatically verifying the memory safety of CUDA kernels used in LLM inference. Model2Kernel performs model-aware dynamic analysis to determine how each model invokes kernels and to classify kernel arguments as either fixed by the model architecture or controlled by model users. Using this information, Model2Kernel then applies CUDA-specialized symbolic execution, supported by new abstractions for dynamic tensor memory and thread identifiers, to accurately pinpoint memory bugs in kernels. In the evaluation on CUDA kernels and models from vLLM, Hugging Face, and recent LLM research papers, Model2Kernel discovers 353 previously unknown bugs while producing only nine false positives, demonstrating its effectiveness.
Abstract（参考訳）: 大規模言語モデル(LLM)の普及により、GPUアクセラレーション推論は現代のコンピューティングインフラストラクチャにおいて重要な部分となっている。プロダクション推論システムはコアトランスフォーマー操作を実装するためにCUDAカーネルに依存しているが、これらのカーネルはモデル依存のテンソルレイアウト、複雑なメモリインデックス、巨大なスレッドレベルの並列性によるメモリセーフなバグに非常に敏感である。このようなバグは、モデルの重み付けを破損させたり、推論サービスをクラッシュさせたり、あるいは敵の攻撃を可能としたりする。既存の技術は、使用できないハードウェアに依存するか、高いオーバーヘッドを必要とするか、カーネルの入力を可変長で処理できないかのいずれかであり、LLM推論システムにおけるCUDAメモリのバグを効果的に検出することはできない。本稿では,LLM推論に使用されるCUDAカーネルのメモリ安全性を自動検証する最初の実用システムであるModel2Kernelを提案する。 Model2Kernelはモデル認識の動的解析を行い、各モデルがどのようにカーネルを呼び出すかを決定し、カーネル引数をモデルアーキテクチャによって固定されるか、モデルユーザによって制御されるかのいずれかとして分類する。この情報を用いて、Model2KernelはCUDA固有のシンボリック実行を適用し、動的テンソルメモリとスレッド識別子の新しい抽象化によってサポートされ、カーネル内のメモリのバグを正確に特定する。 CUDAカーネルと、vLLM、Hugging Face、および最近のLLM研究論文からのモデルの評価において、Model2Kernelは、それまで不明であった353のバグを発見し、わずか9つの偽陽性を発生させ、その効果を実証した。

論文の概要: Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

関連論文リスト