論文の概要: Demystifying the Silence of Correctness Bugs in PyTorch Compiler
- arxiv url: http://arxiv.org/abs/2604.08720v1
- Date: Thu, 09 Apr 2026 19:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.556219
- Title: Demystifying the Silence of Correctness Bugs in PyTorch Compiler
- Title(参考訳): PyTorchコンパイラにおける正当性バグの無音化
- Authors: Meiziniu Li, Dongze Li, Jianmeng Liu, Shing-Chi Cheung,
- Abstract要約: The first empirical study of the correctness bugs in torch.compile, examined their characteristics and the effective of existing fuzzer。
本稿では,Torch.compileの正当性バグを検出するために,AlignGuardという概念実証テスト手法を提案する。
- 参考スコア(独自算出の注目度): 8.638422379229342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance optimization of AI infrastructure is key to the fast adoption of large language models (LLMs). The PyTorch compiler (torch.compile), a core optimization tool for deep learning (DL) models (including LLMs), has received due attention. However, torch.compile is prone to correctness bugs, which cause incorrect outputs of compiled DL models without triggering exceptions, crashes, or warnings. These bugs pose a serious threat to the reliability of downstream LLM applications. Data from the PyTorch community shows that 19.2% of high-priority issues are incorrect outputs of compiled DL models induced by torch.compile bugs, the second-most-common bug category (only behind program crashes at 19.57%). However, no systematic study has been conducted to specifically characterize and thereby detect these bugs. In this paper, we present the first empirical study of the correctness bugs in torch.compile, examine their characteristics, and assess the effectiveness of existing fuzzers in detecting them. Based on our findings, we propose a proof-of-concept testing technique named AlignGuard, tailored specifically for detecting correctness bugs in torch.compile. AlignGuard incorporates bug characteristics distilled from our empirical study, applying LLM-based test mutation to existing test cases for correctness bug detection. At the time of writing, AlignGuard has successfully detected 23 new correctness bugs in recent torch.compile. All these bugs have been confirmed or fixed by the PyTorch development team, and over half (14/23) of them are even marked as high-priority bugs, underscoring the usefulness of our technique.
- Abstract(参考訳): AIインフラストラクチャのパフォーマンス最適化は、大規模言語モデル(LLM)の迅速な採用の鍵となる。
ディープラーニング(LLMを含む)モデルのコア最適化ツールであるPyTorchコンパイラ(torch.compile)が注目されている。
しかし、 torch.compile はバグの修正が難しく、例外やクラッシュ、警告を発生させることなく、コンパイルされたDLモデルの誤った出力を引き起こす。
これらのバグは、下流のLLMアプリケーションの信頼性に深刻な脅威をもたらす。
PyTorchコミュニティのデータによると、優先度の高い問題の19.2%は、Torch.compileバグによって引き起こされたコンパイルされたDLモデルの誤った出力である。
しかし,これらのバグを特定・検出するための系統的研究は行われていない。
本稿では,トーチ・コンピレーションにおける正当性バグに関する最初の実証的研究を行い,その特性を検証し,既存のファジィアの有効性を評価する。
そこで本研究では,Torch.compileの正当性バグを検出するために,AlignGuardという概念実証テスト手法を提案する。
AlignGuardは、我々の経験的研究から抽出したバグ特性を取り入れ、LLMベースのテスト変異を既存のテストケースに適用し、正当性バグ検出を行う。
執筆時点で、AlignGuardは最近の torch.compile で23の新しい正当性バグを検出した。
これらのバグはすべてPyTorch開発チームによって確認または修正され、その半数以上(14/23)は優先度の高いバグとしてマークされています。
関連論文リスト
- LLM-Powered Silent Bug Fuzzing in Deep Learning Libraries via Versatile and Controlled Bug Transfer [15.118579443741659]
我々は、歴史的バグレポートには、サイレントバグに関する情報が豊富に活用されていないという観察に基づいて構築する。
我々は大規模言語モデル(LLM)を活用して、サイレントバグファジィのための多目的かつ制御されたバグ転送を行う。
これにより、既知のバグギーから機能的に類似したターゲットへ、リスクの高いコンテキストやオラクルの設計を移すことで、サイレントバグを積極的に検出することができる。
論文 参考訳(メタデータ) (2026-02-26T14:53:26Z) - Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - BugGen: A Self-Correcting Multi-Agent LLM Pipeline for Realistic RTL Bug Synthesis [1.9291502706655312]
我々はBugGenを紹介した。これは完全な自律型マルチエージェントパイプラインで、RTLの機能的バグを生成し、挿入し、検証する。
BugGenはモジュールを分割し、クローズドループエージェントアーキテクチャを介して突然変異ターゲットを選択し、反復的な洗練とロールバック機構を採用している。
5つのOpenTitan IPブロックで評価され、BugGenは機能精度94%の500のユニークなバグを発生し、通常のマニュアル専門家の挿入より5倍速い時間当たり17.7のバグを検証した。
論文 参考訳(メタデータ) (2025-06-12T09:02:20Z) - Checker Bug Detection and Repair in Deep Learning Libraries [30.494018435420706]
Deep Learning (DL)ライブラリのチェッカーバグは批判的だが、十分に調査されていない。
広範に利用されている2つのDLライブラリにおけるDLチェッカーバグの総合的研究について紹介する。
我々は、概念実証のJAXGuardベースのツールであるZeroGuardを提案し、DLライブラリのチェッカーバグを検出し、修正する。
論文 参考訳(メタデータ) (2024-10-09T00:48:12Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - SkipAnalyzer: A Tool for Static Code Analysis with Large Language Models [12.21559364043576]
SkipAnalyzerは、静的コード解析のための大規模言語モデル(LLM)ベースのツールである。
概念実証として、SkipAnalyzerはChatGPT上に構築されている。
論文 参考訳(メタデータ) (2023-10-27T23:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。