論文の概要: Automatic Static Bug Detection for Machine Learning Libraries: Are We
There Yet?
- arxiv url: http://arxiv.org/abs/2307.04080v1
- Date: Sun, 9 Jul 2023 01:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 18:06:00.813011
- Title: Automatic Static Bug Detection for Machine Learning Libraries: Are We
There Yet?
- Title(参考訳): 機械学習ライブラリの自動静的バグ検出:まだ存在するか?
- Authors: Nima Shiri harzevili, Jiho Shin, Junjie Wang, Song Wang, Nachiappan
Nagappan
- Abstract要約: Flawfinder、RATS、Cppcheck、Facebook Infer、Clangの5つの人気のある、広く使用されている静的バグ検出を、ソフトウェアバグのキュレートされたデータセットで分析する。
全体として、静的バグ検出装置は、6/410バグ(0.01%)、Flawfinder、RATSといったバグの無視可能な量のバグを検知し、機械学習ライブラリでソフトウェアバグを見つけるのに最も効果的な静的チェッカーであることを示した。
- 参考スコア(独自算出の注目度): 14.917820383894124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic detection of software bugs is a critical task in software security.
Many static tools that can help detect bugs have been proposed. While these
static bug detectors are mainly evaluated on general software projects call
into question their practical effectiveness and usefulness for machine learning
libraries. In this paper, we address this question by analyzing five popular
and widely used static bug detectors, i.e., Flawfinder, RATS, Cppcheck,
Facebook Infer, and Clang static analyzer on a curated dataset of software bugs
gathered from four popular machine learning libraries including Mlpack, MXNet,
PyTorch, and TensorFlow with a total of 410 known bugs. Our research provides a
categorization of these tools' capabilities to better understand the strengths
and weaknesses of the tools for detecting software bugs in machine learning
libraries. Overall, our study shows that static bug detectors find a negligible
amount of all bugs accounting for 6/410 bugs (0.01%), Flawfinder and RATS are
the most effective static checker for finding software bugs in machine learning
libraries. Based on our observations, we further identify and discuss
opportunities to make the tools more effective and practical.
- Abstract(参考訳): ソフトウェアバグの自動検出は、ソフトウェアセキュリティにおいて重要なタスクである。
バグ検出に役立つ多くの静的ツールが提案されている。
これらの静的バグ検出は主に、一般的なソフトウェアプロジェクトで評価されているが、機械学習ライブラリの実用性と有用性に疑問を投げかける。
本稿では、mlpack、mxnet、pytorch、tensorflowを含む4つのポピュラーな機械学習ライブラリから収集されたソフトウェアバグのキュレートされたデータセットについて、rustfinder、 rats、cppcheck、facebook infer、clang static analyzerの5つ、合計410の既知のバグを分析して、この質問に答える。
私たちの研究は、これらのツールの能力を分類し、機械学習ライブラリ内のソフトウェアバグを検出するツールの強みと弱みをよりよく理解する。
全体として,静的なバグ検出者は6/410のバグ(0.01%),欠陥発見者およびラットが,機械学習ライブラリでソフトウェアバグを見つける上で最も効果的な静的チェッカーであることを示す。
観察結果に基づいて,ツールをより効果的かつ実用的なものにするための機会を更に特定し,議論する。
関連論文リスト
- KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Software issues report for bug fixing process: An empirical study of
machine-learning libraries [0.0]
6つの機械学習ライブラリにおけるバグ修正プロセスにおける課題解決の有効性について検討した。
マシンラーニングライブラリで最も一般的な問題カテゴリは、バグ、ドキュメント、最適化、クラッシュ、拡張、新機能要求、ビルド/CI、サポート、パフォーマンスである。
本研究は,効率的な課題追跡プロセス,効果的なコミュニケーション,コラボレーションが,機械学習ライブラリの課題解決やバグ修正プロセスの効果的な解決に不可欠である,と結論付けている。
論文 参考訳(メタデータ) (2023-12-10T21:33:19Z) - An Empirical Study on Bugs Inside PyTorch: A Replication Study [10.848682558737494]
私たちは、非常に人気のあるディープラーニングフレームワークであるPyTorchライブラリのバグを特徴付けています。
私たちの結果は、PyTorchのバグはディープラーニングの特徴よりも、従来のソフトウェアプロジェクトのバグに近いことを強調しています。
論文 参考訳(メタデータ) (2023-07-25T19:23:55Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Infrared: A Meta Bug Detector [10.541969253100815]
我々はメタバグ検出と呼ばれる新しいアプローチを提案し、既存の学習ベースのバグ検出よりも3つの重要な利点を提供している。
我々のメタバグ検出装置(MBD)は,ヌルポインタの参照,配列インデックスのアウト・オブ・バウンド,ファイルハンドルのリーク,さらには並列プログラムにおけるデータ競合など,さまざまなバグの発見に有効であることを示す。
論文 参考訳(メタデータ) (2022-09-18T09:08:51Z) - ALBench: A Framework for Evaluating Active Learning in Object Detection [102.81795062493536]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。
自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文 参考訳(メタデータ) (2022-07-27T07:46:23Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - Self-Supervised Bug Detection and Repair [27.46717890823656]
本稿では,バグ検出と修復の自己教師型学習手法であるBugLabを紹介する。
BugLabのPython実装では、2374の実際のバグのテストデータセットのベースラインメソッドで最大30%改善されている。
論文 参考訳(メタデータ) (2021-05-26T18:41:05Z) - D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-02-16T07:46:53Z) - Smoke Testing for Machine Learning: Simple Tests to Discover Severe
Defects [7.081604594416339]
我々は、基本的な関数がクラッシュすることなく実行できると主張するのに使用できる、汎用的で単純な煙テストを決定することを試みる。
テストした3つの機械学習ライブラリすべてにバグがあり、3つのライブラリのうち2つに深刻なバグがありました。
論文 参考訳(メタデータ) (2020-09-03T08:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。