論文の概要: Checker Bug Detection and Repair in Deep Learning Libraries
- arxiv url: http://arxiv.org/abs/2410.06440v1
- Date: Wed, 9 Oct 2024 00:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 05:38:53.498267
- Title: Checker Bug Detection and Repair in Deep Learning Libraries
- Title(参考訳): 深層学習ライブラリにおけるチェッカーバグ検出と修復
- Authors: Nima Shiri Harzevili, Mohammad Mahdi Mohajer, Jiho Shin, Moshi Wei, Gias Uddin, Jinqiu Yang, Junjie Wang, Song Wang, Zhen Ming, Jiang, Nachiappan Nagappan,
- Abstract要約: Deep Learning (DL)ライブラリのチェッカーバグは批判的だが、十分に調査されていない。
広範に利用されている2つのDLライブラリにおけるDLチェッカーバグの総合的研究について紹介する。
我々は、概念実証のJAXGuardベースのツールであるZeroGuardを提案し、DLライブラリのチェッカーバグを検出し、修正する。
- 参考スコア(独自算出の注目度): 30.494018435420706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Checker bugs in Deep Learning (DL) libraries are critical yet not well-explored. These bugs are often concealed in the input validation and error-checking code of DL libraries and can lead to silent failures, incorrect results, or unexpected program behavior in DL applications. Despite their potential to significantly impact the reliability and performance of DL-enabled systems built with these libraries, checker bugs have received limited attention. We present the first comprehensive study of DL checker bugs in two widely-used DL libraries, i.e., TensorFlow and PyTorch. Initially, we automatically collected a dataset of 2,418 commits from TensorFlow and PyTorch repositories on GitHub from Sept. 2016 to Dec. 2023 using specific keywords related to checker bugs. Through manual inspection, we identified 527 DL checker bugs. Subsequently, we analyzed these bugs from three perspectives, i.e., root causes, symptoms, and fixing patterns. Using the knowledge gained via root cause analysis of checker bugs, we further propose TensorGuard, a proof-of-concept RAG-based LLM-based tool to detect and fix checker bugs in DL libraries via prompt engineering a series of ChatGPT prompts. We evaluated TensorGuard's performance on a test dataset that includes 92 buggy and 135 clean checker-related changes in TensorFlow and PyTorch from January 2024 to July 2024. Our results demonstrate that TensorGuard has high average recall (94.51\%) using Chain of Thought prompting, a balanced performance between precision and recall using Zero-Shot prompting and Few-Shot prompting strategies. In terms of patch generation, TensorGuard achieves an accuracy of 11.1\%, which outperforms the state-of-the-art bug repair baseline by 2\%. We have also applied TensorGuard on the latest six months' checker-related changes (493 changes) of the JAX library from Google, which resulted in the detection of 64 new checker bugs.
- Abstract(参考訳): Deep Learning (DL)ライブラリのチェッカーバグは批判的だが、十分に調査されていない。
これらのバグは、しばしばDLライブラリの入力検証とエラーチェックコードに隠蔽され、DLアプリケーションでサイレント障害、不正な結果、予期せぬプログラム動作につながる可能性がある。
これらのライブラリで構築されたDL対応システムの信頼性と性能に大きな影響を与える可能性があるが、チェッカーバグは注目されている。
本稿では、広く使われている2つのDLライブラリ、TensorFlowとPyTorchにおけるDLチェッカーバグの総合的研究について紹介する。
当初、チェッカーバグに関連する特定のキーワードを使用して、2016年9月から2023年12月まで、GitHubのTensorFlowとPyTorchリポジトリから2,418のコミットのデータセットを自動的に収集しました。
手動検査により527個のDLチェッカーバグが確認された。
その後,これらのバグを根本原因,症状,定着パターンという3つの観点から分析した。
さらに,チェッカーバグの根本原因分析を通じて得られた知識を用いて,一連のChatGPTプロンプトをプロンプトエンジニアリングすることで,DLライブラリのチェッカーバグを検出し,修正するための概念実証のためのLLMベースのツールであるTensorGuardを提案する。
我々は、2024年1月から2024年7月までに、TensorFlowとPyTorchの92のバグギーと135のクリーンチェッカー関連変更を含むテストデータセット上で、TensorGuardのパフォーマンスを評価した。
この結果から,Zero-ShotプロンプトとFew-Shotプロンプトを用いた精度とリコールのバランスの取れた性能であるChain of Thoughtプロンプトを用いた平均リコール(94.51\%)が得られた。
パッチ生成に関して、TensorGuardは11.1\%の精度を達成し、最先端のバグ修正ベースラインを2\%上回る。
また、GoogleのJAXライブラリの最新6ヶ月のチェッカー関連変更(493の変更)にもTensorGuardを適用しました。
関連論文リスト
- CITADEL: Context Similarity Based Deep Learning Framework Bug Finding [36.34154201748415]
既存のディープラーニング(DL)フレームワークテストツールには、バグタイプが限定されている。
我々はCitadelを提案する。Citadelは効率と有効性の観点からバグの発見を高速化する手法だ。
論文 参考訳(メタデータ) (2024-06-18T01:51:16Z) - Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests [44.13331329339185]
我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。
提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。
論文 参考訳(メタデータ) (2024-05-01T15:15:52Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - SkipAnalyzer: A Tool for Static Code Analysis with Large Language Models [12.21559364043576]
SkipAnalyzerは、静的コード解析のための大規模言語モデル(LLM)ベースのツールである。
概念実証として、SkipAnalyzerはChatGPT上に構築されている。
論文 参考訳(メタデータ) (2023-10-27T23:17:42Z) - An Analysis of Bugs In Persistent Memory Application [0.0]
我々は,NVMレベルのハッシュPMアプリケーションをテストするために,オープンソースの自動バグ検出ツール(AGAMOTTO)を評価した。
私たちの忠実な検証ツールは、PMDKライブラリで65の新しいNVMレベルのハッシュバグを発見しました。
本稿では,PM-Aware 探索アルゴリズムを用いたディープQ学習探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-19T23:12:01Z) - Automatic Static Bug Detection for Machine Learning Libraries: Are We
There Yet? [14.917820383894124]
Flawfinder、RATS、Cppcheck、Facebook Infer、Clangの5つの人気のある、広く使用されている静的バグ検出を、ソフトウェアバグのキュレートされたデータセットで分析する。
全体として、静的バグ検出装置は、6/410バグ(0.01%)、Flawfinder、RATSといったバグの無視可能な量のバグを検知し、機械学習ライブラリでソフトウェアバグを見つけるのに最も効果的な静的チェッカーであることを示した。
論文 参考訳(メタデータ) (2023-07-09T01:38:52Z) - DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and
Code Skeletons [5.564793925574796]
本稿では,大規模な事前学習型トランスを用いた自動デバッグ手法を提案する。
まず、合成バグを生成するために、逆コミットデータにバグ生成モデルをトレーニングすることから始めます。
次に、テストを実行できる10Kリポジトリに焦点を当て、テストをパスすることでカバーされるすべての関数のバグの多いバージョンを作成します。
論文 参考訳(メタデータ) (2021-05-19T18:40:16Z) - D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-02-16T07:46:53Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。