論文の概要: ImproBR: Bug Report Improver Using LLMs
- arxiv url: http://arxiv.org/abs/2604.26142v1
- Date: Tue, 28 Apr 2026 22:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.183302
- Title: ImproBR: Bug Report Improver Using LLMs
- Title(参考訳): ImproBR: LLMを使用したバグレポートの改善
- Authors: Emre Furkan Akyol, Mehmet Dedeler, Eray Tüzün,
- Abstract要約: ImproBRは、欠落、不完全、曖昧なセクションに対処することで、バグレポートを自動的に検出し、改善するパイプラインである。
構造的完全性は7.9%から96.4%に向上し、実行可能なS2Rの割合を2倍以上にし、実際の139件の報告に対して1から13件まで完全に再現可能なバグレポートを引き上げた。
- 参考スコア(独自算出の注目度): 1.4465033892011254
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Bug tracking systems play a crucial role in software maintenance, yet developers frequently struggle with low-quality user-submitted reports that omit essential details such as Steps to Reproduce (S2R), Observed Behavior (OB), and Expected Behavior (EB). We propose ImproBR, an LLM-based pipeline that automatically detects and improves bug reports by addressing missing, incomplete, and ambiguous S2R, OB, and EB sections. ImproBR employs a hybrid detector combining fine-tuned DistilBERT, heuristic analysis, and an LLM analyzer, guided by GPT-4o mini with section-specific few-shot prompts and a Retrieval-Augmented Generation (RAG) pipeline grounded in Minecraft Wiki domain knowledge. Evaluated on Mojira, ImproBR improved structural completeness from 7.9% to 96.4%, more than doubled the proportion of executable S2R from 28.8% to 67.6%, and raised fully reproducible bug reports from 1 to 13 across 139 challenging real-world reports.
- Abstract(参考訳): バグトラッキングシステムは、ソフトウェアのメンテナンスにおいて重要な役割を果たすが、開発者は、S2R(Steps to Reproduce)、OB(Observed Behavior)、EB(Readed Behavior)といった重要な詳細を省略する、低品質のユーザ投稿レポートにしばしば苦労する。
我々は,不完全,不完全,曖昧なS2R,OB,EBセクションに対処することで,バグレポートを自動的に検出し,改善するLLMベースのパイプラインであるImproBRを提案する。
ImproBRは、微調整のDistilBERT、ヒューリスティック分析、LPMアナライザを組み合わせたハイブリッド検出器を採用しており、GPT-4oミニでガイドされ、セクション固有の数発のプロンプトと、Minecraft Wikiドメインの知識を基盤としたRetrieval-Augmented Generation (RAG)パイプラインが採用されている。
モジラでの評価により、ImproBRは構造的完全性を7.9%から96.4%に改善し、実行可能なS2Rの割合を28.8%から67.6%に倍増させた。
関連論文リスト
- Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis [68.28714988482703]
プロセス・リワード・モデル(PRM)は、LLM(Large Language Models)の推論能力を増強することに成功した。
本稿では,一般ドメインのPRMがデータ分析エージェントの監督に苦慮していることを示す。
本稿では,新しい環境対応生成プロセス報酬モデルであるDataPRMを紹介する。
論文 参考訳(メタデータ) (2026-04-27T09:00:30Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - TestExplora: Benchmarking LLMs for Proactive Bug Discovery via Repository-Level Test Generation [19.43198506241428]
提案するTestExploraは,大規模言語モデルを積極的なテスタとして評価するためのベンチマークである。
TestExploraには482リポジトリから2,389のタスクが含まれており、すべての欠陥関連信号を隠している。
現状のモデルでは、F2P(Fail-to-Pass)の最大率は16.06%である。
論文 参考訳(メタデータ) (2026-02-11T03:22:51Z) - BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - Crash Report Enhancement with Large Language Models: An Empirical Study [21.842377922082104]
大規模言語モデルでは, 故障箇所, 根本原因の説明, 修復提案を追加することで, 事故報告を向上できるかどうかを検討する。
実世界の492件の事故報告のデータセットでは、LSMが実施した報告はTop-1問題局所化の精度を10.6%から40.2-43.1%に改善した。
手動による評価と LLM-as-a-judge の評価は,Agenic-LLM がより強力な根本原因の説明と,より実用的な修復指導を提供することを示している。
論文 参考訳(メタデータ) (2025-09-16T21:02:57Z) - AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems? [71.21547572568655]
AgenTracer-8Bは、マルチグラニュラ強化学習で訓練された軽量障害トレーサである。
Who&Whenベンチマークでは、AgenTracer-8BはGemini-2.5-ProやClaude-4-Sonnetのような巨大なLLMを最大18.18%上回っている。
AgenTracer-8BはMetaGPTやMAASのような市販のマルチエージェントシステムに4.8-14.2%の性能向上をもたらす。
論文 参考訳(メタデータ) (2025-09-03T13:42:14Z) - Can We Enhance Bug Report Quality Using LLMs?: An Empirical Study of LLM-Based Bug Report Generation [0.0]
本稿では,命令微調整された大規模言語モデル(LLM)が,手軽で非構造化のバグレポートを,標準テンプレートに固執する高品質なバグレポートに自動変換できるかどうかを考察する。
我々は、ChatGPT-4oに対して3つのオープンソースの命令チューニングLDM(emphQwen 2.5, Mistral, Llama 3.2)を評価し、CTQRS、ROUGE、METEOR、SBERTなどの確立されたメトリクスの性能を測定した。
実験の結果,細調整Qwen 2.5はCTQRSスコアがtextbf77%であることがわかった。
論文 参考訳(メタデータ) (2025-04-26T05:15:53Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。