論文の概要: Automated Root-Cause Subclassification and No-Code Fix Generation for Invalid Bug Reports
- arxiv url: http://arxiv.org/abs/2605.17561v1
- Date: Sun, 17 May 2026 17:45:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.197367
- Title: Automated Root-Cause Subclassification and No-Code Fix Generation for Invalid Bug Reports
- Title(参考訳): 無効バグレポートの自動根管部分分類とノーコードフィックス生成
- Authors: Mahmut Furkan Gon, Emre Dinc, Tevfik Emre Sungur, Eray Tuzun,
- Abstract要約: 無効なバグレポートはコードの変更を必要としない。
我々のゴールは、ルートを指向した無効なバグレポートのサブクラス化のための標準化された分類を導入することです。
金標準ベンチマークで異なる構成がどのように機能するかを研究する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Issues faced when using software are reported in the form of bug reports. However, many bug reports are invalid, meaning they do not require code changes, and are resolved with a no-code fix. Manually determining the root cause of the invalid bug reports and providing actionable resolutions by the customer support causes a serious waste of resources. Our goal is to introduce a standardized taxonomy for root-cause oriented invalid bug report subclassification, and perform experiments to test the accuracy of various approaches on invalid subclassification and no-code fix generation. We study how different configurations perform on a gold-standard benchmark we have created. Using a manually curated benchmark for higher quality analysis, we experimented with vanilla LLMs, Retrieval Augmented Generation, and agentic web search to identify invalid subclasses and generate no-code fixes. We evaluated the results against manually labeled ground truth data that includes the invalid subclass and no-code fixes from the original bug reports. We measured subclass detection performance with weighted F1-Score, and assessed no-code fix suggestions using BERTScore and Judge LLM success rates. For subclassification, retrieval augmented generation achieves the highest overall performance with 0.66 weighted F1, slightly outperforming vanilla LLMs at 0.65 and agentic web search at 0.64. At the subclass level, performance peaks at 0.85 F1 for Non-reproducibility and 0.79 for Feature Request and Question, while Wrong Version remains the most challenging with scores between 0.00 and 0.29. For no-code fix generation, agentic web search achieves the highest overall Judge LLM success rate at 68.9%, compared to 64.4% for RAG applications and 64.9% for vanilla LLMs, with subclass-level peaks of 87.4% for Working as Designed and 72.2% for Question.
- Abstract(参考訳): ソフトウェアを使用する際の問題はバグ報告の形で報告される。
しかし、多くのバグレポートは無効であり、コードの変更は不要であり、ノーコード修正で解決される。
無効なバグレポートの根本原因を手動で決定し、顧客サポートによる実行可能な解決を提供すると、深刻なリソース浪費が発生する。
我々のゴールは、ルート起因性指向の無効バグレポートのサブクラス化のための標準化された分類を導入し、無効なサブクラス化とノーコードフィックス生成に対する様々なアプローチの精度をテストする実験を行うことである。
我々は、私たちが作成したゴールドスタンダードのベンチマークで、異なる構成がどのように機能するかを研究する。
そこで我々は,Vanilla LLM,Retrieval Augmented Generation,およびエージェントWeb検索を用いて,不正なサブクラスを識別し,コード修正を生成する。
本研究は,従来のバグレポートから,無効なサブクラスとノーコード修正を含む,手動でラベル付けされた地中真理データと比較した。
重み付きF1-Scoreを用いてサブクラス検出性能を測定し,BERTScoreおよび判断LDM成功率を用いてコード修正提案を評価した。
サブクラス化において、検索強化は0.66重み付きF1で最高性能を達成し、バニラLLMは0.65、エージェントウェブサーチは0.64である。
サブクラスレベルでは、非再現性は 0.85 F1、機能要求と質問は 0.79 であり、Wrong Version は 0.00 から 0.29 のスコアで最も難しい。
ノーコードフィックス生成では、エージェントWebサーチは、RAGアプリケーションで64.4%、バニラLLMで64.9%、サブクラスレベルのピークで87.4%、質問で72.2%と、総合的なLLM成功率を68.9%で達成している。
関連論文リスト
- Correct Code, Vulnerable Dependencies: A Large Scale Measurement Study of LLM-Specified Library Versions [52.50730821321986]
大規模言語モデル(LLM)におけるバージョンレベルのリスクの大規模評価を初めて行った。
我々は1000のStack OverflowプログラミングタスクのベンチマークであるPinTrace上で10のLLMを評価した。
LLM バージョン選択は LLM ベース開発における第1級, 以前は見落とされたリスクサーフェスとして確認された。
論文 参考訳(メタデータ) (2026-05-07T13:52:59Z) - LLM-Guided Issue Generation from Uncovered Code Segments [2.9610847900970856]
IssueSpecterは未発見のコードセグメントのバグを見つけ、優先順位付けされた実行可能なイシューレポートを自動的に生成する。
我々は、13のアクティブメンテナンスPythonプロジェクトでIssueSpecterを評価し、10,467のイシューレポートを生成した。
論文 参考訳(メタデータ) (2026-04-28T21:10:53Z) - Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [8.166584296080805]
本稿では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。
その結果,コミットメッセージとコード差分を組み合わせることで,モデルの性能が著しく向上することがわかった。
49のオープンソースプロジェクトにアプローチを適用することで、バグギーと非バグギーメソッド間のコードのメトリクスの分散分離性が向上します。
論文 参考訳(メタデータ) (2025-05-13T06:26:13Z) - Teaching Your Models to Understand Code via Focal Preference Alignment [70.71693365502212]
既存の手法では、テストケースの成功率に基づいてn個の候補解が評価される。
このアプローチは、特定のエラーを特定するのではなく、失敗するコードブロック全体を整列するので、意味のあるエラーと訂正の関係を捉えるのに必要な粒度が欠けている。
我々は、人間の反復デバッグを模倣してコードLLMを洗練させる新しい優先順位調整フレームワークであるTarget-DPOを提案する。
論文 参考訳(メタデータ) (2025-03-04T16:56:34Z) - Fixing Function-Level Code Generation Errors for Foundation Large Language Models [6.137340149146578]
生成エラーに関する実証的研究を行い、その原因の分析を行い、19種類のエラー原因を導出する。
私たちの経験的分析では、これらの3つの原因が直接修正可能であることが示されています。
本稿では,この3種類のエラーを3段階のプロセスで処理するLlmFix法を提案する。
論文 参考訳(メタデータ) (2024-09-01T09:40:15Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。