論文の概要: SkipAnalyzer: An Embodied Agent for Code Analysis with Large Language
Models
- arxiv url: http://arxiv.org/abs/2310.18532v1
- Date: Fri, 27 Oct 2023 23:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:09:23.004090
- Title: SkipAnalyzer: An Embodied Agent for Code Analysis with Large Language
Models
- Title(参考訳): SkipAnalyzer: 大規模言語モデルを用いたコード分析のためのエンボディエージェント
- Authors: Mohammad Mahdi Mohajer, Reem Aleithan, Nima Shiri Harzevili, Moshi
Wei, Alvine Boaye Belle, Hung Viet Pham, Song Wang
- Abstract要約: 静的コード解析のための最初の大規模言語モデル(LLM)を用いたエンボディエージェントであるSkipAnalyzerを紹介する。
バグを検出し、偽陽性の警告をフィルタリングし、人間の介入なしに検出されたバグをパッチする。
- 参考スコア(独自算出の注目度): 12.21559364043576
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce SkipAnalyzer, the first large language model (LLM)-powered
embodied agent for static code analysis. It can detect bugs, filter false
positive warnings, and patch the detected bugs without human intervention.
SkipAnalyzer consists of three components, 1) an LLM-based static bug detector
that scans source code and reports specific types of bugs, 2) an LLM-based
false-positive filter that can identify false-positive bugs in the results of
static bug detectors to improve detection accuracy, and 3) an LLM-based patch
generator that can generate patches for the detected bugs above. As a
proof-of-concept, SkipAnalyzer is built on ChatGPT, which has exhibited
outstanding performance in various software engineering tasks. To evaluate
SkipAnalyzer, we focus on two types of typical and critical bugs that are
targeted by static bug detection, i.e., Null Dereference and Resource Leak as
subjects. We employ Infer to aid the gathering of these two bug types from 10
open-source projects. Consequently, our experiment dataset contains 222
instances of Null Dereference bugs and 46 instances of Resource Leak bugs. Our
study demonstrates that SkipAnalyzer achieves remarkable performance in the
mentioned static analysis tasks, including bug detection, false-positive
warning removal, and bug repair. In static bug detection, SkipAnalyzer achieves
accuracy values of up to 68.37% for detecting Null Dereference bugs and 76.95%
for detecting Resource Leak bugs, outperforming the current leading bug
detector, Infer. For removing false-positive warnings, SkipAnalyzer can reach a
precision of up to 93.88% for Null Dereference bugs and 63.33% for Resource
Leak bugs. Additionally, SkipAnalyzer surpasses state-of-the-art false-positive
warning removal tools. Furthermore, in bug repair, SkipAnalyzer can generate
syntactically correct patches to fix its detected bugs with a success rate of
up to 97.30%.
- Abstract(参考訳): 静的コード解析のための最初の大規模言語モデル(LLM)を用いたエンボディエージェントであるSkipAnalyzerを紹介する。
バグを検出し、偽陽性の警告をフィルタリングし、人間の介入なしに検出されたバグをパッチする。
SkipAnalyzerは3つのコンポーネントから構成される。
1) ソースコードをスキャンして特定の種類のバグを報告するLLMベースの静的バグ検出装置。
2) 静的なバグ検出結果から偽陽性のバグを識別できるllmベースの偽陽性フィルタにより,検出精度が向上する。
3) 検出されたバグに対してパッチを生成できるllmベースのパッチジェネレータ。
概念実証として、SkipAnalyzerはChatGPT上に構築されている。
SkipAnalyzerを評価するために、静的バグ検出(Null Dereference)とResource Leak(Resource Leak)の2つのタイプに着目した。
10のオープンソースプロジェクトから2つのバグタイプを収集するためにinferを採用しています。
その結果、実験データセットには、Null Dereferenceバグの222インスタンスとResource Leakバグの46インスタンスが含まれている。
本研究では,SkipAnalyzerが,バグ検出,偽陽性警告除去,バグ修復などの静的解析タスクにおいて顕著な性能を発揮することを示す。
静的なバグ検出では、skipanalyzerは最大68.37%の精度でnull参照バグを検出でき、76.95%のリソースリークバグを検出できる。
偽陽性の警告を除去するために、SkipAnalyzerは、Null Dereferenceバグで93.88%、Resource Leakバグで63.33%の精度に達することができる。
さらにskipanalyzerは最先端の偽陽性警告削除ツールを超えている。
さらに、バグ修正では、SkipAnalyzerは構文的に正しいパッチを生成し、検出されたバグを97.30%の成功率で修正することができる。
関連論文リスト
- Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests [44.13331329339185]
我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。
提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。
論文 参考訳(メタデータ) (2024-05-01T15:15:52Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。
本論文では,NLP手法の組み合わせによる解を提案する。
カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文 参考訳(メタデータ) (2022-12-13T02:32:42Z) - Infrared: A Meta Bug Detector [10.541969253100815]
我々はメタバグ検出と呼ばれる新しいアプローチを提案し、既存の学習ベースのバグ検出よりも3つの重要な利点を提供している。
我々のメタバグ検出装置(MBD)は,ヌルポインタの参照,配列インデックスのアウト・オブ・バウンド,ファイルハンドルのリーク,さらには並列プログラムにおけるデータ競合など,さまざまなバグの発見に有効であることを示す。
論文 参考訳(メタデータ) (2022-09-18T09:08:51Z) - An Empirical Study on Bug Severity Estimation using Source Code Metrics and Static Analysis [0.8621608193534838]
我々は、19のJavaオープンソースプロジェクトと異なる重度ラベルを持つ3,358のバグギーメソッドを調査した。
結果は、コードメトリクスがバグの多いコードを予測するのに有用であることを示しているが、バグの深刻度レベルを見積もることはできない。
当社の分類では、セキュリティバグがほとんどのケースで高い重大性を持っているのに対して、エッジ/バウンダリ障害は低い重大性を持っていることが示されています。
論文 参考訳(メタデータ) (2022-06-26T17:07:23Z) - Learning to Reduce False Positives in Analytic Bug Detectors [12.733531603080674]
偽陽性のバグ警告を識別するためのトランスフォーマーに基づく学習手法を提案する。
我々は,静的解析の精度を17.5%向上させることができることを示した。
論文 参考訳(メタデータ) (2022-03-08T04:26:26Z) - D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-02-16T07:46:53Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。