Fugu-MT 論文翻訳(概要): Fuzzing Deep Learning Compilers with HirGen

論文の概要: Fuzzing Deep Learning Compilers with HirGen

arxiv url: http://arxiv.org/abs/2208.02193v5
Date: Wed, 21 Jun 2023 06:19:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 15:19:39.291477
Title: Fuzzing Deep Learning Compilers with HirGen
Title（参考訳）: HirGenによるディープラーニングコンパイラのファジィ化
Authors: Haoyang Ma, Qingchao Shen, Yongqiang Tian, Junjie Chen, Shing-Chi Cheung
Abstract要約: HirGenは、ハイレベルIRの最適化において、コーディングミスを効果的に露呈することを目的とした自動テスト技術である。 HirGenは、TVMで発生した21のバグを正常に検出し、17のバグが確認され、12が修正された。実験の結果,HirGenは48時間以内にベースラインで検出できない10のクラッシュや不整合を検出することができた。
参考スコア（独自算出の注目度）: 12.068825031724229
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Deep Learning (DL) compilers are widely adopted to optimize advanced DL models for efficient deployment on diverse hardware. Their quality has profound effect on the quality of compiled DL models. A recent bug study shows that the optimization of high-level intermediate representation (IR) is the most error-prone compilation stage. Bugs in this stage are accountable for 44.92% of the whole collected ones. However, existing testing techniques do not consider high-level optimization related features (e.g. high-level IR), and are therefore weak in exposing bugs at this stage. To bridge this gap, we propose HirGen, an automated testing technique that aims to effectively expose coding mistakes in the optimization of high-level IR. The design of HirGen includes 1) three coverage criteria to generate diverse and valid computational graphs; 2) full use of high-level IRs language features to generate diverse IRs; 3) three test oracles inspired from both differential testing and metamorphic testing. HirGen has successfully detected 21 bugs that occur at TVM, with 17 bugs confirmed and 12 fixed. Further, we construct four baselines using the state-of-the-art DL compiler fuzzers that can cover the high-level optimization stage. Our experiment results show that HirGen can detect 10 crashes and inconsistencies that cannot be detected by the baselines in 48 hours. We further validate the usefulness of our proposed coverage criteria and test oracles in evaluation.
Abstract（参考訳）: ディープラーニング(DL)コンパイラは、多様なハードウェアへの効率的なデプロイメントのために、高度なDLモデルを最適化するために広く採用されている。それらの品質は、コンパイルされたDLモデルの品質に大きな影響を与えます。最近のバグスタディでは、ハイレベル中間表現(ir)の最適化が最もエラーやすいコンパイルステージであることが示されている。この段階でのバグは全体の44.92%を占める。しかし、既存のテスト技術は、ハイレベル最適化に関連する機能(例えば、ハイレベルir)を考慮していないため、この段階でのバグの露見には弱い。このギャップを埋めるために,高レベルirの最適化において,コーディングミスを効果的に顕在化することを目的とした自動テスト技術であるhirgenを提案する。 HirGenの設計には 1) 多様な有効な計算グラフを生成するための3つのカバレッジ基準 2) 多様なIRを生成するために高レベルIR言語の特徴をフル活用すること。 3) 差分テストとメタモルフィックテストの両方からインスパイアされた3つのテストオラクル。 hirgenは、tvmで発生した21のバグを検出し、17のバグが確認された。さらに,最先端のDLコンパイラファジィを用いて,高レベル最適化段階をカバーする4つのベースラインを構築する。実験の結果,HirGenは48時間以内にベースラインで検出できない10のクラッシュや不整合を検出することができた。さらに,提案するカバレッジ基準の有用性を検証し,評価中のオラクルをテストする。

関連論文リスト

Hide and Seek with LLMs: An Adversarial Game for Sneaky Error Generation and Self-Improving Diagnosis [51.88592148135258]
本稿では,エラー生成と診断のための動的対向フレームワークであるHie and Seek Game (HSG)を提案する。 HSGには2つの敵対的役割がある: Sneakyは、微妙で偽りの推論エラーを発生させることで「隠す」ことと、それらを正確に検出するために「探す」診断である。いくつかの数学推論タスクの実験では、HSGはエラー診断を著しく向上し、GPT-4oのようなベースラインよりも16.8%--31.4%高い精度を達成している。
論文参考訳（メタデータ） (2025-08-05T12:45:21Z)
BugGen: A Self-Correcting Multi-Agent LLM Pipeline for Realistic RTL Bug Synthesis [1.9291502706655312]
我々はBugGenを紹介した。これは完全な自律型マルチエージェントパイプラインで、RTLの機能的バグを生成し、挿入し、検証する。 BugGenはモジュールを分割し、クローズドループエージェントアーキテクチャを介して突然変異ターゲットを選択し、反復的な洗練とロールバック機構を採用している。 5つのOpenTitan IPブロックで評価され、BugGenは機能精度94%の500のユニークなバグを発生し、通常のマニュアル専門家の挿入より5倍速い時間当たり17.7のバグを検証した。
論文参考訳（メタデータ） (2025-06-12T09:02:20Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
What You See Is What You Get: Attention-based Self-guided Automatic Unit Test Generation [3.8244417073114003]
本稿では,AUGER(Attention-based Self-guided Automatic Unit Test GenERation)アプローチを提案する。 AUGERには欠陥検出とエラートリガーという2つのステージがある。 F1スコアと欠陥検出精度で4.7%から35.3%向上した。ユニットテスト生成において、最先端(SOTA)アプローチよりも23から84のエラーを発生させることができる。
論文参考訳（メタデータ） (2024-12-01T14:28:48Z)
Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.165102332393964]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。 LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文参考訳（メタデータ） (2024-10-10T01:14:58Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文参考訳（メタデータ） (2024-06-05T13:40:07Z)
Constrained C-Test Generation via Mixed-Integer Programming [55.28927994487036]
本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の形式であるC-テストを生成する新しい手法を提案する。局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
論文参考訳（メタデータ） (2024-04-12T21:35:21Z)
Evolutionary Generative Fuzzing for Differential Testing of the Kotlin Compiler [14.259471945857431]
JetBrainsが開発したKotlinコンパイラのバグ発見における差分テストの有効性について検討する。そこで我々は,K1コンパイラとK2コンパイラの入力プログラムを生成するブラックボックス生成手法を提案する。ケーススタディでは,提案手法がK1とK2のバグを効果的に検出している。
論文参考訳（メタデータ） (2024-01-12T16:01:12Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文参考訳（メタデータ） (2023-10-28T04:07:58Z)
HDCC: A Hyperdimensional Computing compiler for classification on embedded systems and high-performance computing [58.720142291102135]
この研究は、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである、ネームコンパイラを紹介している。 nameは現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。
論文参考訳（メタデータ） (2023-04-24T19:16:03Z)
Finding Deep-Learning Compilation Bugs with NNSmith [20.082492391396933]
本稿では,ディープラーニングコンパイラのバグ発見のためのファズテスト手法を提案する。我々の中核的なアプローチは、(i)軽量な演算子仕様を使用して、多種多様な有効なモデルを生成し、(ii)勾配ベースの探索プロセスを作成し、(iii)差分テストによってバグを特定します。我々は,この手法をNSmithで実施し,TVM,RT,ONNXRuntime,PyTorchの過去7ヶ月で65の新たなバグを発見した。そのうち52件が確認され,メンテナによって44件が修正されている。
論文参考訳（メタデータ） (2022-07-26T17:39:51Z)
Coverage-Guided Tensor Compiler Fuzzing with Joint IR-Pass Mutation [20.519361342905775]
広範に使われているTVMテンソルコンパイラのためのファジィ手法であるTzerを提案する。以上の結果から,Tzerはテンソルコンパイラテストにおいて,既存のファジリング技術よりも大幅に優れていることがわかった。これまでTzerは、TVMの49の既知のバグを検出し、37のバグが確認され、25のバグが修正された。
論文参考訳（メタデータ） (2022-02-21T01:48:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。