Fugu-MT 論文翻訳(概要): CITADEL: Context Similarity Based Deep Learning Framework Bug Finding

論文の概要: CITADEL: Context Similarity Based Deep Learning Framework Bug Finding

arxiv url: http://arxiv.org/abs/2406.12196v1
Date: Tue, 18 Jun 2024 01:51:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 23:08:33.432510
Title: CITADEL: Context Similarity Based Deep Learning Framework Bug Finding
Title（参考訳）: CITADEL:コンテキスト類似性に基づくディープラーニングフレームワークのバグ検索
Authors: Xiaoyu Zhang, Juan Zhai, Shiqing Ma, Shiwei Wang, Chao Shen,
Abstract要約: 本稿では,CITADELを提案する。CITADELは,効率と有効性の観点から,バグの発見を高速化する手法である。これは、まず既存のバグレポートを収集し、問題のあるAPIを特定することで機能する。 CITADELが生成したテストケースの35.40%はバグを引き起こすことができ、その割合は0.74%、1.23%、および3.90%を大きく超える。
参考スコア（独自算出の注目度）: 36.34154201748415
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With deep learning (DL) technology becoming an integral part of the new intelligent software, tools of DL framework testing and bug-finding are in high demand. Existing DL framework testing tools have limited coverage on bug types. For example, they lack the capability of finding performance bugs, which are critical for DL model training and inference regarding performance, economics, and the environment. This problem is challenging due to the difficulty of getting test oracles of performance bugs. Moreover, existing tools are inefficient, generating hundreds of test cases with few trigger bugs. In this paper, we propose CITADEL, a method that accelerates the finding of bugs in terms of efficiency and effectiveness. We observe that many DL framework bugs are similar due to the similarity of operators and algorithms belonging to the same family (e.g., Conv2D and Conv3D). Orthogonal to existing bug-finding tools, CITADEL aims to find new bugs that are similar to reported ones that have known test oracles. It works by first collecting existing bug reports and identifying problematic APIs. CITADEL defines context similarity to measure the similarity of DL framework API pairs and automatically generates test cases with oracles for APIs that are similar to the problematic APIs in existing bug reports. CITADEL respectively covers 1,436 PyTorch and 5,380 TensorFlow APIs and effectively detects 79 and 80 API bugs, among which 58 and 68 are new, and 36 and 58 have been confirmed, many of which, e.g., the 11 performance bugs cannot be detected by existing tools. Moreover, a remarkable 35.40% of the test cases generated by CITADEL can trigger bugs, which significantly transcends the ratios of 0.74%, 1.23%, and 3.90% exhibited by the state-of-the-art methods, DocTer, DeepREL, and TitanFuzz.
Abstract（参考訳）: ディープラーニング(DL)技術が新しいインテリジェントソフトウェアに不可欠な部分になることで、DLフレームワークのテストとバグフィリングのツールが要求される。既存のDLフレームワークテストツールには、バグタイプが限定されている。例えば、DLモデルのトレーニングやパフォーマンス、経済、環境に関する推論には重要なパフォーマンスバグを見つける能力がない。この問題は、パフォーマンスのバグをテストするのが難しいため、難しい。さらに、既存のツールは非効率で、数百のテストケースを生成し、トリガーバグが少ない。本稿では,CITADELを提案する。CITADELは,効率と有効性の観点から,バグの発見を高速化する手法である。 DLフレームワークのバグの多くは、同じファミリーに属する演算子やアルゴリズム(例えば、Conv2D、Conv3D)の類似性のため、類似している。既存のバグフィニングツールと直交して、CITADELは、テストのオーラクルが既知の報告されたものに似た、新しいバグを見つけることを目的としている。これは、まず既存のバグレポートを収集し、問題のあるAPIを特定することで機能する。 CITADELは、DLフレームワークのAPIペアの類似度を測定するためにコンテキストの類似性を定義し、既存のバグレポートで問題のあるAPIに類似したAPIのオラクルを使ったテストケースを自動的に生成する。 CITADELは、それぞれ1,436 PyTorchと5,380 TensorFlow APIをカバーし、79と80のAPIバグを効果的に検出する。さらに、CITADELが生成したテストケースの35.40%がバグを引き起こす可能性がある。これは最先端のメソッドであるDocTer、DeepREL、TitanFuzzによって示される0.74%、1.23%、および3.90%の比率を大幅に超える。

関連論文リスト

BugScope: Learn to Find Bugs Like Human [9.05553442116139]
BugScopeは、人間の監査人が代表例から新しいバグパターンを学習し、コード監査中にその知識を適用する方法をエミュレートする。 BugScopeが87.04%の精度を達成したことを示す。 Linuxカーネルを含む大規模なオープンソースシステムのさらなるテストにより、これまで不明だった141のバグが明らかになった。
論文参考訳（メタデータ） (2025-07-21T14:34:01Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。 DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文参考訳（メタデータ） (2025-01-08T07:07:22Z)
Subgraph-Oriented Testing for Deep Learning Libraries [9.78188667672054]
我々は,異なるハードウェアプラットフォーム上でディープラーニング(DL)ライブラリをテストするためのSORT(Subgraph-Oriented Realistic Testing)を提案する。 SORTは、テスト対象として、しばしばモデルグラフのサブグラフとして表現される、人気のあるAPIインタラクションパターンを採用している。 SORTは100%有効な入力生成率を実現し、既存のメソッドよりも精度の高いバグを検出し、シングルAPIテストで欠落したインタラクション関連のバグを明らかにする。
論文参考訳（メタデータ） (2024-12-09T12:10:48Z)
Leveraging Data Characteristics for Bug Localization in Deep Learning Programs [21.563130049562357]
本稿では,Deep Learning (DL)プログラムにおける構造的バグの検出とローカライズを行うTheiaを提案する。 Theiaは40のバグギープログラムにおいて57/75のバグをローカライズすることに成功しているのに対し,NeuraLintは17/75のバグをローカライズする前に構造バグをローカライズできる最先端のアプローチである。
論文参考訳（メタデータ） (2024-12-08T01:52:06Z)
Reinforcement Learning-Based REST API Testing with Multi-Coverage [4.127886193201882]
MUCORESTは、Qラーニングを利用してコードカバレッジと出力カバレッジを最大化する、新しい強化学習(RL)ベースのAPIテストアプローチである。 MUCORESTは、発見されたAPIバグの数で、最先端のAPIテストアプローチを11.6-261.1%上回っている。
論文参考訳（メタデータ） (2024-10-20T14:20:23Z)
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文参考訳（メタデータ） (2024-07-02T21:44:22Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Automated Bug Generation in the era of Large Language Models [6.0770779409377775]
BugFarmは任意のコードを複数の複雑なバグに変換する。 BUGFARMが生成した1.9万以上の変異株から435k以上のバグを総合的に評価する。
論文参考訳（メタデータ） (2023-10-03T20:01:51Z)
PreciseBugCollector: Extensible, Executable and Precise Bug-fix Collection [8.79879909193717]
正確な多言語バグ収集手法であるPreciseBugCollectorを紹介する。外部バグリポジトリでリポジトリをマップしてバグタイプ情報をトレースするバグトラッカと、プロジェクト固有のバグを生成するバグインジェクタの2つの新しいコンポーネントに基づいている。現在、PreciseBugCollectorは2968のオープンソースプロジェクトから抽出された1057818のバグを含んでいる。
論文参考訳（メタデータ） (2023-09-12T13:47:44Z)
An Analysis of Bugs In Persistent Memory Application [0.0]
我々は,NVMレベルのハッシュPMアプリケーションをテストするために,オープンソースの自動バグ検出ツール(AGAMOTTO)を評価した。私たちの忠実な検証ツールは、PMDKライブラリで65の新しいNVMレベルのハッシュバグを発見しました。本稿では,PM-Aware 探索アルゴリズムを用いたディープQ学習探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-07-19T23:12:01Z)
Prompting Is All You Need: Automated Android Bug Replay with Large Language Models [28.69675481931385]
本稿では,バグ報告から迅速なエンジニアリングを通じてバグを自動的に再現する,新しい軽量なアプローチであるAdbGPTを提案する。 AdbGPTは、LLMから人間の知識と論理的推論を引き出すために、少数ショットの学習と連鎖推論を活用する。この評価は,253.6秒で81.3%のバグレポートを再現するAdbGPTの有効性と有効性を示すものである。
論文参考訳（メタデータ） (2023-06-03T03:03:52Z)
Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文参考訳（メタデータ） (2022-11-11T16:37:33Z)
BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文参考訳（メタデータ） (2022-07-21T20:17:53Z)
D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。 D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文参考訳（メタデータ） (2021-02-16T07:46:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。