論文の概要: CITADEL: Context Similarity Based Deep Learning Framework Bug Finding
- arxiv url: http://arxiv.org/abs/2406.12196v1
- Date: Tue, 18 Jun 2024 01:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 23:08:33.432510
- Title: CITADEL: Context Similarity Based Deep Learning Framework Bug Finding
- Title(参考訳): CITADEL:コンテキスト類似性に基づくディープラーニングフレームワークのバグ検索
- Authors: Xiaoyu Zhang, Juan Zhai, Shiqing Ma, Shiwei Wang, Chao Shen,
- Abstract要約: 本稿では,CITADELを提案する。CITADELは,効率と有効性の観点から,バグの発見を高速化する手法である。
これは、まず既存のバグレポートを収集し、問題のあるAPIを特定することで機能する。
CITADELが生成したテストケースの35.40%はバグを引き起こすことができ、その割合は0.74%、1.23%、および3.90%を大きく超える。
- 参考スコア(独自算出の注目度): 36.34154201748415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With deep learning (DL) technology becoming an integral part of the new intelligent software, tools of DL framework testing and bug-finding are in high demand. Existing DL framework testing tools have limited coverage on bug types. For example, they lack the capability of finding performance bugs, which are critical for DL model training and inference regarding performance, economics, and the environment. This problem is challenging due to the difficulty of getting test oracles of performance bugs. Moreover, existing tools are inefficient, generating hundreds of test cases with few trigger bugs. In this paper, we propose CITADEL, a method that accelerates the finding of bugs in terms of efficiency and effectiveness. We observe that many DL framework bugs are similar due to the similarity of operators and algorithms belonging to the same family (e.g., Conv2D and Conv3D). Orthogonal to existing bug-finding tools, CITADEL aims to find new bugs that are similar to reported ones that have known test oracles. It works by first collecting existing bug reports and identifying problematic APIs. CITADEL defines context similarity to measure the similarity of DL framework API pairs and automatically generates test cases with oracles for APIs that are similar to the problematic APIs in existing bug reports. CITADEL respectively covers 1,436 PyTorch and 5,380 TensorFlow APIs and effectively detects 79 and 80 API bugs, among which 58 and 68 are new, and 36 and 58 have been confirmed, many of which, e.g., the 11 performance bugs cannot be detected by existing tools. Moreover, a remarkable 35.40% of the test cases generated by CITADEL can trigger bugs, which significantly transcends the ratios of 0.74%, 1.23%, and 3.90% exhibited by the state-of-the-art methods, DocTer, DeepREL, and TitanFuzz.
- Abstract(参考訳): ディープラーニング(DL)技術が新しいインテリジェントソフトウェアに不可欠な部分になることで、DLフレームワークのテストとバグフィリングのツールが要求される。
既存のDLフレームワークテストツールには、バグタイプが限定されている。
例えば、DLモデルのトレーニングやパフォーマンス、経済、環境に関する推論には重要なパフォーマンスバグを見つける能力がない。
この問題は、パフォーマンスのバグをテストするのが難しいため、難しい。
さらに、既存のツールは非効率で、数百のテストケースを生成し、トリガーバグが少ない。
本稿では,CITADELを提案する。CITADELは,効率と有効性の観点から,バグの発見を高速化する手法である。
DLフレームワークのバグの多くは、同じファミリーに属する演算子やアルゴリズム(例えば、Conv2D、Conv3D)の類似性のため、類似している。
既存のバグフィニングツールと直交して、CITADELは、テストのオーラクルが既知の報告されたものに似た、新しいバグを見つけることを目的としている。
これは、まず既存のバグレポートを収集し、問題のあるAPIを特定することで機能する。
CITADELは、DLフレームワークのAPIペアの類似度を測定するためにコンテキストの類似性を定義し、既存のバグレポートで問題のあるAPIに類似したAPIのオラクルを使ったテストケースを自動的に生成する。
CITADELは、それぞれ1,436 PyTorchと5,380 TensorFlow APIをカバーし、79と80のAPIバグを効果的に検出する。
さらに、CITADELが生成したテストケースの35.40%がバグを引き起こす可能性がある。これは最先端のメソッドであるDocTer、DeepREL、TitanFuzzによって示される0.74%、1.23%、および3.90%の比率を大幅に超える。
関連論文リスト
- FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking [57.53742155914176]
APIコール生成は、大規模言語モデルのツール使用能力の基盤となっている。
既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、低いデータ効率、APIドキュメントとユーザの要求に反する生成APIコールに悩まされる。
本稿では,これらの制約に対処するため,FANTASEと呼ばれる出力側最適化手法を提案する。
論文 参考訳(メタデータ) (2024-07-18T23:44:02Z) - DLLens: Testing Deep Learning Libraries via LLM-aided Synthesis [8.779035160734523]
テストは、ディープラーニング(DL)ライブラリの品質を保証するための主要なアプローチである。
既存のテスト技術では、テストオラクルの構築を緩和するために差分テストを採用するのが一般的である。
本稿では,DLライブラリテストのための新しい差分試験手法であるシーレンスを紹介する。
論文 参考訳(メタデータ) (2024-06-12T07:06:38Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - PreciseBugCollector: Extensible, Executable and Precise Bug-fix
Collection [8.79879909193717]
正確な多言語バグ収集手法であるPreciseBugCollectorを紹介する。
外部バグリポジトリでリポジトリをマップしてバグタイプ情報をトレースするバグトラッカと、プロジェクト固有のバグを生成するバグインジェクタの2つの新しいコンポーネントに基づいている。
現在、PreciseBugCollectorは2968のオープンソースプロジェクトから抽出された1057818のバグを含んでいる。
論文 参考訳(メタデータ) (2023-09-12T13:47:44Z) - An Analysis of Bugs In Persistent Memory Application [0.0]
我々は,NVMレベルのハッシュPMアプリケーションをテストするために,オープンソースの自動バグ検出ツール(AGAMOTTO)を評価した。
私たちの忠実な検証ツールは、PMDKライブラリで65の新しいNVMレベルのハッシュバグを発見しました。
本稿では,PM-Aware 探索アルゴリズムを用いたディープQ学習探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-19T23:12:01Z) - Prompting Is All You Need: Automated Android Bug Replay with Large Language Models [28.69675481931385]
本稿では,バグ報告から迅速なエンジニアリングを通じてバグを自動的に再現する,新しい軽量なアプローチであるAdbGPTを提案する。
AdbGPTは、LLMから人間の知識と論理的推論を引き出すために、少数ショットの学習と連鎖推論を活用する。
この評価は,253.6秒で81.3%のバグレポートを再現するAdbGPTの有効性と有効性を示すものである。
論文 参考訳(メタデータ) (2023-06-03T03:03:52Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - ADPTriage: Approximate Dynamic Programming for Bug Triage [0.0]
オンラインバグトリアージタスクのためのマルコフ決定プロセス(MDP)モデルを開発した。
私たちはADPTriageと呼ばれるADPベースのバグトリアージソリューションを提供しています。
以上の結果から, 代入精度と固定時間の観点から, ミオピックアプローチよりも有意な改善が見られた。
論文 参考訳(メタデータ) (2022-11-02T04:42:21Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Empirical Upper Bound, Error Diagnosis and Invariance Analysis of Modern
Object Detectors [47.64219291655723]
我々は、最先端のオブジェクト検出ベンチマークを2つ採用し、4つの大規模データセット上で15モデル以上を分析します。
モデルが空の領域に多くのボックスを生成し、そのコンテキストが大きな領域よりも小さなオブジェクトを検出するのに重要であることが分かりました。
論文 参考訳(メタデータ) (2020-04-05T06:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。