論文の概要: BugScope: Learn to Find Bugs Like Human
- arxiv url: http://arxiv.org/abs/2507.15671v1
- Date: Mon, 21 Jul 2025 14:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.441499
- Title: BugScope: Learn to Find Bugs Like Human
- Title(参考訳): BugScope:人間のようなバグを見つけることを学ぶ
- Authors: Jinyao Guo, Chengpeng Wang, Dominic Deluca, Jinjie Liu, Zhuo Zhang, Xiangyu Zhang,
- Abstract要約: BugScopeは、人間の監査人が代表例から新しいバグパターンを学習し、コード監査中にその知識を適用する方法をエミュレートする。
BugScopeが87.04%の精度を達成したことを示す。
Linuxカーネルを含む大規模なオープンソースシステムのさらなるテストにより、これまで不明だった141のバグが明らかになった。
- 参考スコア(独自算出の注目度): 9.05553442116139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting software bugs remains a fundamental challenge due to the extensive diversity of real-world defects. Traditional static analysis tools often rely on symbolic workflows, which restrict their coverage and hinder adaptability to customized bugs with diverse anti-patterns. While recent advances incorporate large language models (LLMs) to enhance bug detection, these methods continue to struggle with sophisticated bugs and typically operate within limited analysis contexts. To address these challenges, we propose BugScope, an LLM-driven multi-agent system that emulates how human auditors learn new bug patterns from representative examples and apply that knowledge during code auditing. Given a set of examples illustrating both buggy and non-buggy behaviors, BugScope synthesizes a retrieval strategy to extract relevant detection contexts via program slicing and then constructs a tailored detection prompt to guide accurate reasoning by the LLM. Our evaluation on a curated dataset of 40 real-world bugs drawn from 21 widely-used open-source projects demonstrates that BugScope achieves 87.04% precision and 90.00% recall, surpassing state-of-the-art industrial tools by 0.44 in F1 score. Further testing on large-scale open-source systems, including the Linux kernel, uncovered 141 previously unknown bugs, of which 78 have been fixed and 7 confirmed by developers, highlighting BugScope's substantial practical impact.
- Abstract(参考訳): ソフトウェアバグの検出は、現実世界の欠陥が広範囲に分散しているため、依然として根本的な課題である。
従来の静的解析ツールは、しばしばシンボリックワークフローに依存しており、カバー範囲を制限し、さまざまなアンチパターンを持つカスタマイズされたバグへの適応性を妨げている。
最近の進歩では、バグ検出を強化するために大きな言語モデル(LLM)が組み込まれているが、これらの手法は高度なバグに悩まされ続け、典型的には限られた分析コンテキストで運用される。
これらの課題に対処するために、人間の監査者が代表例から新しいバグパターンを学習し、コード監査中にその知識を適用する方法をエミュレートしたLLM駆動型マルチエージェントシステムであるBugScopeを提案する。
BugScopeは、バグと非バグの両方の振る舞いを説明する一連の例を与えられた上で、プログラムスライシングを通じて関連する検出コンテキストを抽出する検索戦略を合成し、LLMによる正確な推論を導くための調整された検出プロンプトを構築する。
BugScopeが87.04%の精度と90.00%のリコールを達成し、F1スコアの0.44を超えていることを示す。
Linuxカーネルを含む大規模オープンソースシステムのさらなるテストでは、これまで不明だった141のバグが発見され、78が修正され、7が開発者によって確認され、BugScopeの実質的な影響が強調された。
関連論文リスト
- BugGen: A Self-Correcting Multi-Agent LLM Pipeline for Realistic RTL Bug Synthesis [1.9291502706655312]
我々はBugGenを紹介した。これは完全な自律型マルチエージェントパイプラインで、RTLの機能的バグを生成し、挿入し、検証する。
BugGenはモジュールを分割し、クローズドループエージェントアーキテクチャを介して突然変異ターゲットを選択し、反復的な洗練とロールバック機構を採用している。
5つのOpenTitan IPブロックで評価され、BugGenは機能精度94%の500のユニークなバグを発生し、通常のマニュアル専門家の挿入より5倍速い時間当たり17.7のバグを検証した。
論文 参考訳(メタデータ) (2025-06-12T09:02:20Z) - A Comparative Study of Fuzzers and Static Analysis Tools for Finding Memory Unsafety in C and C++ [24.60320701097142]
C/C++プログラムにおける100以上の既知のセキュリティ脆弱性に適用した5つの静的アナライザと13個のファザの実証分析を行った。
どちらのテクニックもさまざまなタイプのバグを発見していますが、それぞれに明確な勝者があります。
論文 参考訳(メタデータ) (2025-05-28T07:22:29Z) - RepoAudit: An Autonomous LLM-Agent for Repository-Level Code Auditing [8.846583362353169]
RepoAuditは、自律的なリポジトリレベルのコード監査エージェントである。
78.43%の精度で、15の現実世界のベンチマークプロジェクトにおいて40の真のバグを検出する。
また、著名なプロジェクトの185の新たなバグを検出し、そのうち174が確認または修正されている。
論文 参考訳(メタデータ) (2025-01-30T05:56:30Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerの総合的な視覚異常検出ベンチマークを提案する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - FineWAVE: Fine-Grained Warning Verification of Bugs for Automated Static Analysis Tools [18.927121513404924]
ASAT(Automated Static Analysis Tools)は、バグ検出を支援するために、時間とともに進化してきた。
これまでの研究は、報告された警告を検証するための学習ベースの方法を探究してきた。
我々は,バグに敏感な警告をきめ細かい粒度で検証する学習ベースアプローチであるFineWAVEを提案する。
論文 参考訳(メタデータ) (2024-03-24T06:21:35Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - What Happens When We Fuzz? Investigating OSS-Fuzz Bug History [0.9772968596463595]
我々は2022年3月12日までにOSS-Fuzzが公表した44,102件の問題を分析した。
コードを含むバグの発生時期を推定するために,バグ貢献のコミットを特定し,検出から修正までのタイムラインを測定した。
論文 参考訳(メタデータ) (2023-05-19T05:15:36Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。