論文の概要: LLM-Guided Issue Generation from Uncovered Code Segments
- arxiv url: http://arxiv.org/abs/2604.26118v2
- Date: Tue, 05 May 2026 19:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 15:17:35.542884
- Title: LLM-Guided Issue Generation from Uncovered Code Segments
- Title(参考訳): 未発見コードセグメントからのLLM誘導問題生成
- Authors: Diany Pressato, Honghao Tan, Mariam Elmoazen, Shin Hwei Tan,
- Abstract要約: IssueSpecterは未発見のコードセグメントのバグを見つけ、優先順位付けされた実行可能なイシューレポートを自動的に生成する。
我々は、13のアクティブメンテナンスPythonプロジェクトでIssueSpecterを評価し、10,467のイシューレポートを生成した。
- 参考スコア(独自算出の注目度): 2.9610847900970856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developers are increasingly overwhelmed by AI-generated issue reports that lack actionability and reproducibility, eroding trust in automated bug detection tools. In this paper, we present IssueSpecter, an automated tool that finds bugs in uncovered code segments and automatically generates prioritized, actionable issue reports. IssueSpecter combines coverage analysis with LLM-based defect identification, producing structured reports complete with severity ratings, reproduction steps, and suggested fixes. We evaluate IssueSpecter on 13 actively maintained Python projects, generating 10,467 issue reports. Manual annotation of the top-130 ranked issues by IssueSpecter confirms that 84.6% of the LLM-generated issues are valid or warrant further investigation, with only 15.4% false positives. LLM-based ranking outperforms rule-based ranking by 50% at P@3 and 41% in MRR. The identified bugs cover a wide variety of types, from logic and boundary errors to security vulnerabilities and state consistency bugs. By ranking issues by priority, IssueSpecter aims to help developers focus their attention on the most impactful bugs first. Finally, we validate IssueSpecter through case studies reproducing real bugs surfaced from its generated issue reports, demonstrating its practical value for automatic bug discovery in open-source Python projects. Compared against CoverUp, a state-of-the-art coverage-driven test generation tool, IssueSpecter achieves a higher bug validity rate (81.0% vs. 76.2%) under identical evaluation conditions, using the same model and the same number of evaluated artifacts per project, while additionally providing structured issue reports with reproduction steps and candidate fixes that are immediately actionable without requiring developers to interpret generated test intent.
- Abstract(参考訳): 開発者は、AI生成のイシューレポートに圧倒され、実行可能性と再現性が欠如し、自動バグ検出ツールへの信頼が損なわれている。
本稿では,未発見のコードセグメントのバグを発見し,優先順位付けされた動作可能な問題レポートを自動的に生成する自動ツールである IssueSpecterを提案する。
IssueSpecterは、カバレッジ分析とLLMベースの欠陥識別を組み合わせることで、厳密な評価、再現手順、修正提案を含む構造化されたレポートを生成する。
我々は、13のアクティブメンテナンスPythonプロジェクトでIssueSpecterを評価し、10,467のイシューレポートを生成した。
IssueSpecterによる上位130の課題のマニュアルアノテーションは、LCMが生成した問題の84.6%が有効またはさらなる調査を保証しており、偽陽性は15.4%に過ぎなかったことを確認している。
LLMベースのランキングは、P@3で50%、MRRで41%でルールベースのランキングを上回っている。
特定されたバグは、ロジックやバウンダリエラー、セキュリティ脆弱性、状態整合性バグなど、さまざまなタイプをカバーする。
IssueSpecterは課題を優先順位付けすることで、開発者が最初に最も影響の大きいバグに注意を向けることを支援する。
最後に、生成されたイシューレポートから得られた実際のバグを再現するケーススタディを通じて、IssueSpecterを検証し、オープンソースのPythonプロジェクトで自動バグ発見の実用的価値を実証する。
最先端のカバレッジ駆動テスト生成ツールであるCoverUpと比較すると、IssageSpecterは同じ評価条件下で、同じモデルとプロジェクト毎の評価済みアーティファクトの数を使って、より高いバグ妥当性(81.0% vs. 76.2%)を達成すると同時に、開発者が生成したテスト意図を解釈することなく即座に実行可能な、再生ステップと候補修正を備えた構造化されたイシューレポートを提供する。
関連論文リスト
- TestExplora: Benchmarking LLMs for Proactive Bug Discovery via Repository-Level Test Generation [19.43198506241428]
提案するTestExploraは,大規模言語モデルを積極的なテスタとして評価するためのベンチマークである。
TestExploraには482リポジトリから2,389のタスクが含まれており、すべての欠陥関連信号を隠している。
現状のモデルでは、F2P(Fail-to-Pass)の最大率は16.06%である。
論文 参考訳(メタデータ) (2026-02-11T03:22:51Z) - BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - BugScope: Learn to Find Bugs Like Human [9.05553442116139]
BugScopeは、人間の監査人が代表例から新しいバグパターンを学習し、コード監査中にその知識を適用する方法をエミュレートする。
BugScopeが87.04%の精度を達成したことを示す。
Linuxカーネルを含む大規模なオープンソースシステムのさらなるテストにより、これまで不明だった141のバグが明らかになった。
論文 参考訳(メタデータ) (2025-07-21T14:34:01Z) - Can We Enhance Bug Report Quality Using LLMs?: An Empirical Study of LLM-Based Bug Report Generation [0.0]
本稿では,命令微調整された大規模言語モデル(LLM)が,手軽で非構造化のバグレポートを,標準テンプレートに固執する高品質なバグレポートに自動変換できるかどうかを考察する。
我々は、ChatGPT-4oに対して3つのオープンソースの命令チューニングLDM(emphQwen 2.5, Mistral, Llama 3.2)を評価し、CTQRS、ROUGE、METEOR、SBERTなどの確立されたメトリクスの性能を測定した。
実験の結果,細調整Qwen 2.5はCTQRSスコアがtextbf77%であることがわかった。
論文 参考訳(メタデータ) (2025-04-26T05:15:53Z) - Automated Bug Report Prioritization in Large Open-Source Projects [3.9134031118910264]
本稿では,バグレポートの自然言語テキストに基づく自動バグ優先順位付け手法を提案する。
我々は、TopicMiner-MTMと呼ばれるLDAの変種を用いてトピックモデリングを行い、BERT大言語モデルを用いてテキスト分類を行う。
Eclipse Platformプロジェクトの85,156のバグレポートを含む既存のリファレンスデータセットを用いた実験結果から、バグレポートの優先度予測の正確性、正確性、リコール、F1測定の点で、既存のアプローチよりも優れています。
論文 参考訳(メタデータ) (2025-04-22T13:57:48Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z) - SBEST: Spectrum-Based Fault Localization Without Fault-Triggering Tests [17.90798133817018]
本研究は, 事故報告から得られたスタックトレースを, スペクトルベース断層定位における故障トリガー試験のプロキシとして用いる可能性について検討した。
本稿では,スタックトレース情報とテストカバレッジデータを統合する新たな手法であるSBESTを提案する。
論文 参考訳(メタデータ) (2024-05-01T15:15:52Z) - Large Language Models are Few-shot Testers: Exploring LLM-based General
Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。
本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。
LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文 参考訳(メタデータ) (2022-09-23T10:50:47Z) - Automatic Classification of Bug Reports Based on Multiple Text
Information and Reports' Intention [37.67372105858311]
本稿では,バグレポートの自動分類手法を提案する。
イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図も考慮することである。
提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。
論文 参考訳(メタデータ) (2022-08-02T06:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。