Fugu-MT 論文翻訳(概要): SkipAnalyzer: An Embodied Agent for Code Analysis with Large Language Models

論文の概要: SkipAnalyzer: An Embodied Agent for Code Analysis with Large Language Models

arxiv url: http://arxiv.org/abs/2310.18532v1
Date: Fri, 27 Oct 2023 23:17:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 18:09:23.004090
Title: SkipAnalyzer: An Embodied Agent for Code Analysis with Large Language Models
Title（参考訳）: SkipAnalyzer: 大規模言語モデルを用いたコード分析のためのエンボディエージェント
Authors: Mohammad Mahdi Mohajer, Reem Aleithan, Nima Shiri Harzevili, Moshi Wei, Alvine Boaye Belle, Hung Viet Pham, Song Wang
Abstract要約: 静的コード解析のための最初の大規模言語モデル(LLM)を用いたエンボディエージェントであるSkipAnalyzerを紹介する。バグを検出し、偽陽性の警告をフィルタリングし、人間の介入なしに検出されたバグをパッチする。
参考スコア（独自算出の注目度）: 12.21559364043576
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce SkipAnalyzer, the first large language model (LLM)-powered embodied agent for static code analysis. It can detect bugs, filter false positive warnings, and patch the detected bugs without human intervention. SkipAnalyzer consists of three components, 1) an LLM-based static bug detector that scans source code and reports specific types of bugs, 2) an LLM-based false-positive filter that can identify false-positive bugs in the results of static bug detectors to improve detection accuracy, and 3) an LLM-based patch generator that can generate patches for the detected bugs above. As a proof-of-concept, SkipAnalyzer is built on ChatGPT, which has exhibited outstanding performance in various software engineering tasks. To evaluate SkipAnalyzer, we focus on two types of typical and critical bugs that are targeted by static bug detection, i.e., Null Dereference and Resource Leak as subjects. We employ Infer to aid the gathering of these two bug types from 10 open-source projects. Consequently, our experiment dataset contains 222 instances of Null Dereference bugs and 46 instances of Resource Leak bugs. Our study demonstrates that SkipAnalyzer achieves remarkable performance in the mentioned static analysis tasks, including bug detection, false-positive warning removal, and bug repair. In static bug detection, SkipAnalyzer achieves accuracy values of up to 68.37% for detecting Null Dereference bugs and 76.95% for detecting Resource Leak bugs, outperforming the current leading bug detector, Infer. For removing false-positive warnings, SkipAnalyzer can reach a precision of up to 93.88% for Null Dereference bugs and 63.33% for Resource Leak bugs. Additionally, SkipAnalyzer surpasses state-of-the-art false-positive warning removal tools. Furthermore, in bug repair, SkipAnalyzer can generate syntactically correct patches to fix its detected bugs with a success rate of up to 97.30%.
Abstract（参考訳）: 静的コード解析のための最初の大規模言語モデル(LLM)を用いたエンボディエージェントであるSkipAnalyzerを紹介する。バグを検出し、偽陽性の警告をフィルタリングし、人間の介入なしに検出されたバグをパッチする。 SkipAnalyzerは3つのコンポーネントから構成される。 1) ソースコードをスキャンして特定の種類のバグを報告するLLMベースの静的バグ検出装置。 2) 静的なバグ検出結果から偽陽性のバグを識別できるllmベースの偽陽性フィルタにより,検出精度が向上する。 3) 検出されたバグに対してパッチを生成できるllmベースのパッチジェネレータ。概念実証として、SkipAnalyzerはChatGPT上に構築されている。 SkipAnalyzerを評価するために、静的バグ検出(Null Dereference)とResource Leak(Resource Leak)の2つのタイプに着目した。 10のオープンソースプロジェクトから2つのバグタイプを収集するためにinferを採用しています。その結果、実験データセットには、Null Dereferenceバグの222インスタンスとResource Leakバグの46インスタンスが含まれている。本研究では,SkipAnalyzerが,バグ検出,偽陽性警告除去,バグ修復などの静的解析タスクにおいて顕著な性能を発揮することを示す。静的なバグ検出では、skipanalyzerは最大68.37%の精度でnull参照バグを検出でき、76.95%のリソースリークバグを検出できる。偽陽性の警告を除去するために、SkipAnalyzerは、Null Dereferenceバグで93.88%、Resource Leakバグで63.33%の精度に達することができる。さらにskipanalyzerは最先端の偽陽性警告削除ツールを超えている。さらに、バグ修正では、SkipAnalyzerは構文的に正しいパッチを生成し、検出されたバグを97.30%の成功率で修正することができる。

関連論文リスト

BugScope: Learn to Find Bugs Like Human [9.05553442116139]
BugScopeは、人間の監査人が代表例から新しいバグパターンを学習し、コード監査中にその知識を適用する方法をエミュレートする。 BugScopeが87.04%の精度を達成したことを示す。 Linuxカーネルを含む大規模なオープンソースシステムのさらなるテストにより、これまで不明だった141のバグが明らかになった。
論文参考訳（メタデータ） (2025-07-21T14:34:01Z)
Can We Enhance Bug Report Quality Using LLMs?: An Empirical Study of LLM-Based Bug Report Generation [0.0]
本稿では,命令微調整された大規模言語モデル(LLM)が,手軽で非構造化のバグレポートを,標準テンプレートに固執する高品質なバグレポートに自動変換できるかどうかを考察する。我々は、ChatGPT-4oに対して3つのオープンソースの命令チューニングLDM(emphQwen 2.5, Mistral, Llama 3.2)を評価し、CTQRS、ROUGE、METEOR、SBERTなどの確立されたメトリクスの性能を測定した。実験の結果,細調整Qwen 2.5はCTQRSスコアがtextbf77%であることがわかった。
論文参考訳（メタデータ） (2025-04-26T05:15:53Z)
Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests [44.13331329339185]
我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。
論文参考訳（メタデータ） (2024-05-01T15:15:52Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。本論文では,NLP手法の組み合わせによる解を提案する。カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文参考訳（メタデータ） (2022-12-13T02:32:42Z)
Infrared: A Meta Bug Detector [10.541969253100815]
我々はメタバグ検出と呼ばれる新しいアプローチを提案し、既存の学習ベースのバグ検出よりも3つの重要な利点を提供している。我々のメタバグ検出装置(MBD)は,ヌルポインタの参照,配列インデックスのアウト・オブ・バウンド,ファイルハンドルのリーク,さらには並列プログラムにおけるデータ競合など,さまざまなバグの発見に有効であることを示す。
論文参考訳（メタデータ） (2022-09-18T09:08:51Z)
An Empirical Study on Bug Severity Estimation using Source Code Metrics and Static Analysis [0.8621608193534838]
我々は、19のJavaオープンソースプロジェクトと異なる重度ラベルを持つ3,358のバグギーメソッドを調査した。結果は、コードメトリクスがバグの多いコードを予測するのに有用であることを示しているが、バグの深刻度レベルを見積もることはできない。当社の分類では、セキュリティバグがほとんどのケースで高い重大性を持っているのに対して、エッジ/バウンダリ障害は低い重大性を持っていることが示されています。
論文参考訳（メタデータ） (2022-06-26T17:07:23Z)
Learning to Reduce False Positives in Analytic Bug Detectors [12.733531603080674]
偽陽性のバグ警告を識別するためのトランスフォーマーに基づく学習手法を提案する。我々は,静的解析の精度を17.5%向上させることができることを示した。
論文参考訳（メタデータ） (2022-03-08T04:26:26Z)
D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。 D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文参考訳（メタデータ） (2021-02-16T07:46:53Z)
Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。 CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文参考訳（メタデータ） (2020-05-08T15:48:31Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。