論文の概要: One Bug, Hundreds Behind: LLMs for Large-Scale Bug Discovery
- arxiv url: http://arxiv.org/abs/2510.14036v1
- Date: Wed, 15 Oct 2025 19:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.593987
- Title: One Bug, Hundreds Behind: LLMs for Large-Scale Bug Discovery
- Title(参考訳): 1つのバグ、数百のバグ:大規模バグ発見のためのLLM
- Authors: Qiushi Wu, Yue Xiao, Dhilung Kirat, Kevin Eykholt, Jiyong Jang, Douglas Lee Schales,
- Abstract要約: Recurring Pattern Bugs (RPB) はプログラムの様々なコードセグメントにまたがって繰り返し現れる。
RPBは広く普及しており、ソフトウェアプログラムのセキュリティを著しく損なう可能性がある。
本稿では,LLVMとLarge Language Model (LLM)によるプログラム解析システムであるBugStoneを紹介する。
- 参考スコア(独自算出の注目度): 11.169105079732864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fixing bugs in large programs is a challenging task that demands substantial time and effort. Once a bug is found, it is reported to the project maintainers, who work with the reporter to fix it and eventually close the issue. However, across the program, there are often similar code segments, which may also contain the bug, but were missed during discovery. Finding and fixing each recurring bug instance individually is labor intensive. Even more concerning, bug reports can inadvertently widen the attack surface as they provide attackers with an exploitable pattern that may be unresolved in other parts of the program. In this paper, we explore these Recurring Pattern Bugs (RPBs) that appear repeatedly across various code segments of a program or even in different programs, stemming from a same root cause, but are unresolved. Our investigation reveals that RPBs are widespread and can significantly compromise the security of software programs. This paper introduces BugStone, a program analysis system empowered by LLVM and a Large Language Model (LLM). The key observation is that many RPBs have one patched instance, which can be leveraged to identify a consistent error pattern, such as a specific API misuse. By examining the entire program for this pattern, it is possible to identify similar sections of code that may be vulnerable. Starting with 135 unique RPBs, BugStone identified more than 22K new potential issues in the Linux kernel. Manual analysis of 400 of these findings confirmed that 246 were valid. We also created a dataset from over 1.9K security bugs reported by 23 recent top-tier conference works. We manually annotate the dataset, identify 80 recurring patterns and 850 corresponding fixes. Even with a cost-efficient model choice, BugStone achieved 92.2% precision and 79.1% pairwise accuracy on the dataset.
- Abstract(参考訳): 大きなプログラムでバグを修正するのは、かなりの時間と労力を要する難しい作業です。
バグが見つかったら、プロジェクトのメンテナに報告され、リポーターと協力して修正し、最終的に問題は解決する。
しかし、プログラム全体では、しばしば同様のコードセグメントがあり、バグも含んでいるが、発見時に見逃された。
繰り返し発生する各バグインスタンスを個別に見つけて修正することは、労働集約的です。
さらに、バグレポートは攻撃者に対してプログラムの他の部分には未解決の悪用可能なパターンを提供するため、攻撃面を不注意に広げる可能性がある。
本稿では,プログラムの様々なコードセグメントにまたがって繰り返し現れるRecurring Pattern Bugs(RPB)について検討する。
我々の調査によると、PBは広く、ソフトウェアプログラムのセキュリティを著しく損なう可能性がある。
本稿では,LLVMとLarge Language Model (LLM)によるプログラム解析システムであるBugStoneを紹介する。
鍵となる観察は、多くのRCBが1つのパッチされたインスタンスを持ち、特定のAPI誤用のような一貫したエラーパターンを特定するために利用することができることである。
このパターンのプログラム全体を調べることで、脆弱性のあるコードセクションを識別することができる。
135個のRPBから始めて、BugStoneはLinuxカーネルの22万以上の潜在的な問題を特定した。
これらの結果の400件のマニュアル分析により,246件が有効であることが確認された。
私たちはまた、最近23のトップレベルのカンファレンスワークによって報告された1.9K以上のセキュリティバグからデータセットを作成しました。
データセットを手動でアノテートし、80の繰り返しパターンと850の修正を識別します。
コスト効率のよいモデル選択であっても、BugStoneは92.2%の精度と79.1%のペアの精度を達成した。
関連論文リスト
- BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - BugScope: Learn to Find Bugs Like Human [9.05553442116139]
BugScopeは、人間の監査人が代表例から新しいバグパターンを学習し、コード監査中にその知識を適用する方法をエミュレートする。
BugScopeが87.04%の精度を達成したことを示す。
Linuxカーネルを含む大規模なオープンソースシステムのさらなるテストにより、これまで不明だった141のバグが明らかになった。
論文 参考訳(メタデータ) (2025-07-21T14:34:01Z) - Evaluating Agent-based Program Repair at Google [9.62742759337993]
エージェントベースのプログラム修復は、複雑なバグをエンドツーエンドで自動的に解決する。
最近の研究は、人気のあるオープンソースSWE-Benchにおけるエージェントベースの修復アプローチの使用について検討している。
本稿では,企業コンテキストにおけるバグに対処するためのエージェント的アプローチの適用可能性について検討する。
論文 参考訳(メタデータ) (2025-01-13T18:09:25Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - CITADEL: Context Similarity Based Deep Learning Framework Bug Finding [36.34154201748415]
既存のディープラーニング(DL)フレームワークテストツールには、バグタイプが限定されている。
我々はCitadelを提案する。Citadelは効率と有効性の観点からバグの発見を高速化する手法だ。
論文 参考訳(メタデータ) (2024-06-18T01:51:16Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Challenging Bug Prediction and Repair Models with Synthetic Bugs [7.285779914390472]
BugFarmは任意のコードを複数の複雑なバグに変換する。
BUGFARMが生成した1.9万以上の変異株から435k以上のバグを総合的に評価する。
論文 参考訳(メタデータ) (2023-10-03T20:01:51Z) - PreciseBugCollector: Extensible, Executable and Precise Bug-fix
Collection [8.79879909193717]
正確な多言語バグ収集手法であるPreciseBugCollectorを紹介する。
外部バグリポジトリでリポジトリをマップしてバグタイプ情報をトレースするバグトラッカと、プロジェクト固有のバグを生成するバグインジェクタの2つの新しいコンポーネントに基づいている。
現在、PreciseBugCollectorは2968のオープンソースプロジェクトから抽出された1057818のバグを含んでいる。
論文 参考訳(メタデータ) (2023-09-12T13:47:44Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Root cause prediction based on bug reports [1.464410818828473]
バグの根本原因を知ることは、デバッグプロセスの開発者に役立つ。
本稿では,あるバグ報告の根本原因を予測するための教師付き機械学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T12:47:15Z) - D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-02-16T07:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。