論文の概要: Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels
- arxiv url: http://arxiv.org/abs/2603.24595v1
- Date: Fri, 06 Mar 2026 04:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.030789
- Title: Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels
- Title(参考訳): Model2Kernel: 安全なCUDAカーネルのためのモデル対応シンボリック実行
- Authors: Mengting He, Shihao Xia, Haomin Jia, Wenfei Wu, Linhai Song,
- Abstract要約: プロダクション推論システムはコア操作を実装するためにカーネルに依存している。
メモリセーフティのバグは、モデルの重み付けを破損させたり、推論サービスをクラッシュさせたり、あるいは敵攻撃も可能になったりする。
本稿では,推論に使用されるカーネルのメモリ安全性を自動検証する最初の実用システムであるModel2 Kernelを提案する。
- 参考スコア(独自算出の注目度): 6.682299469816275
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The widespread adoption of large language models (LLMs) has made GPU-accelerated inference a critical part of modern computing infrastructure. Production inference systems rely on CUDA kernels to implement core transformer operations, yet these kernels are highly susceptible to memory-safety bugs due to model-dependent tensor layouts, intricate memory indexing, and massive thread-level parallelism. Such bugs can corrupt model weights, crash inference services, or even enable adversarial attacks. Existing techniques either depend on unavailable hardware, incur high overhead, or fail to handle kernel inputs with variable lengths, and none can effectively detect CUDA memory bugs in LLM inference systems. This paper presents Model2Kernel, the first practical system for automatically verifying the memory safety of CUDA kernels used in LLM inference. Model2Kernel performs model-aware dynamic analysis to determine how each model invokes kernels and to classify kernel arguments as either fixed by the model architecture or controlled by model users. Using this information, Model2Kernel then applies CUDA-specialized symbolic execution, supported by new abstractions for dynamic tensor memory and thread identifiers, to accurately pinpoint memory bugs in kernels. In the evaluation on CUDA kernels and models from vLLM, Hugging Face, and recent LLM research papers, Model2Kernel discovers 353 previously unknown bugs while producing only nine false positives, demonstrating its effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及により、GPUアクセラレーション推論は現代のコンピューティングインフラストラクチャにおいて重要な部分となっている。
プロダクション推論システムはコアトランスフォーマー操作を実装するためにCUDAカーネルに依存しているが、これらのカーネルはモデル依存のテンソルレイアウト、複雑なメモリインデックス、巨大なスレッドレベルの並列性によるメモリセーフなバグに非常に敏感である。
このようなバグは、モデルの重み付けを破損させたり、推論サービスをクラッシュさせたり、あるいは敵の攻撃を可能としたりする。
既存の技術は、使用できないハードウェアに依存するか、高いオーバーヘッドを必要とするか、カーネルの入力を可変長で処理できないかのいずれかであり、LLM推論システムにおけるCUDAメモリのバグを効果的に検出することはできない。
本稿では,LLM推論に使用されるCUDAカーネルのメモリ安全性を自動検証する最初の実用システムであるModel2Kernelを提案する。
Model2Kernelはモデル認識の動的解析を行い、各モデルがどのようにカーネルを呼び出すかを決定し、カーネル引数をモデルアーキテクチャによって固定されるか、モデルユーザによって制御されるかのいずれかとして分類する。
この情報を用いて、Model2KernelはCUDA固有のシンボリック実行を適用し、動的テンソルメモリとスレッド識別子の新しい抽象化によってサポートされ、カーネル内のメモリのバグを正確に特定する。
CUDAカーネルと、vLLM、Hugging Face、および最近のLLM研究論文からのモデルの評価において、Model2Kernelは、それまで不明であった353のバグを発見し、わずか9つの偽陽性を発生させ、その効果を実証した。
関連論文リスト
- CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文 参考訳(メタデータ) (2026-02-27T18:58:05Z) - DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels [17.979042914049842]
拡散大言語モデル (dLLM) は自己回帰(AR) LLM に代わる魅力的な代替品として登場した。
CuKeは、高性能カーネル向けに最適化された拡張データセットである。
DICEはカーネル生成用に設計された拡散大言語モデルである。
論文 参考訳(メタデータ) (2026-02-12T08:45:13Z) - Joker: Joint Optimization Framework for Lightweight Kernel Machines [20.45405359815043]
我々は,KRR,ロジスティック回帰,サポートベクタマシンなど,多様なカーネルモデルを対象とした共同最適化フレームワークJokerを提案する。
実験によると、Jokerは最大90%のメモリを節約できるが、最先端のメソッドよりもトレーニング時間とパフォーマンス(あるいはさらに良い)を達成する。
論文 参考訳(メタデータ) (2025-05-23T11:36:45Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - Optimal Kernel Tuning Parameter Prediction using Deep Sequence Models [0.44998333629984877]
本稿では,深部列列列モデルを用いて,計算カーネルを管理する最適チューニングパラメータを予測する手法を提案する。
提案アルゴリズムは、AMD機械学習プリミティブライブラリであるMIOpenにおいて、様々な畳み込みカーネル上で90%以上の精度を達成することができる。
論文 参考訳(メタデータ) (2024-04-15T22:25:54Z) - QUICK: Quantization-aware Interleaving and Conflict-free Kernel for
efficient LLM inference [9.031180368026071]
QUICKは、最先端の混合精度行列乗算カーネルの共有メモリバンク競合問題に対処する。
我々は、多くのNVIDIA GPUデバイス上で、AutoAWQの既存のカーネルを最大1.91倍のスピードアップし、代表LLMモデルの最大1.94倍のスループットを示す。
論文 参考訳(メタデータ) (2024-02-15T16:38:41Z) - Diagonal Memory Optimisation for Machine Learning on Micro-controllers [21.222568055417717]
マイクロコントローラと低消費電力CPUは、機械学習モデルによる推論の実行にますます利用されている。
これらのターゲットで利用可能な少量のRAMは、実行可能なモデルのサイズを制限する。
対角メモリ最適化技術は、11の一般的なモデルに適用した場合、最大34.5%のメモリ節約を実現するために説明され、示されている。
論文 参考訳(メタデータ) (2020-10-04T19:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。