論文の概要: BugMentor: Generating Answers to Follow-up Questions from Software Bug Reports using Structured Information Retrieval and Neural Text Generation
- arxiv url: http://arxiv.org/abs/2304.12494v4
- Date: Fri, 12 Sep 2025 21:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.558563
- Title: BugMentor: Generating Answers to Follow-up Questions from Software Bug Reports using Structured Information Retrieval and Neural Text Generation
- Title(参考訳): BugMentor:構造化情報検索とニューラルテキスト生成を用いたソフトウェアバグレポートからの回答生成
- Authors: Usmi Mukherjee, Mohammad Masudur Rahman,
- Abstract要約: 本稿では,構造化情報検索とニューラルテキスト生成を組み合わせた新しい手法であるBugMentorを提案する。
提案手法は,過去のバグレポートから与えられたバグレポートを識別し,コンテキスト情報をキャプチャし,それを利用して回答を生成する。
我々は,最大72のBLEUスコアと最大92のセマンティック類似性を達成し,この手法が質問に対する理解と回答を得られることを示す。
- 参考スコア(独自算出の注目度): 0.9298382208776371
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Software bug reports often lack crucial information (e.g., steps to reproduce), which makes bug resolution challenging. Developers thus ask follow-up questions to capture additional information. However, according to existing evidence, bug reporters often face difficulties answering them, which leads to the premature closing of bug reports without any resolution. Recent studies suggest follow-up questions to support the developers, but answering the follow-up questions still remains a major challenge. In this paper, we propose BugMentor, a novel approach that combines structured information retrieval and neural text generation (e.g., Mistral) to generate appropriate answers to the follow-up questions. Our technique identifies the past relevant bug reports to a given bug report, captures contextual information, and then leverages it to generate the answers. We evaluate our generated answers against the ground truth answers using four appropriate metrics, including the BLEU Score and the Semantic Similarity. We achieve a BLEU Score of up to 72 and a Semantic Similarity of up to 92, indicating that our technique can generate understandable and good answers to the follow-up questions according to Google's AutoML Translation documentation. Our technique also outperforms four existing baselines with a statistically significant margin. We also conduct a developer study involving 23 participants where the answers from our technique were found to be more accurate, more precise, more concise and more useful.
- Abstract(参考訳): ソフトウェアバグレポートには重要な情報(例えば、再現する手順)が欠落していることが多いため、バグの解決が難しい。
開発者は追加情報を取得するためにフォローアップ質問をする。
しかし、既存の証拠によると、バグレポーターは対応に苦慮することが多く、バグ報告の早期閉鎖につながる。
最近の研究では、開発者をサポートするためのフォローアップ質問が提案されているが、フォローアップ質問への回答は依然として大きな課題である。
本稿では,構造化情報検索とニューラルテキスト生成(例えばMistral)を組み合わせて,フォローアップ質問に対する適切な回答を生成する手法であるBugMentorを提案する。
提案手法は,過去のバグレポートから与えられたバグレポートを識別し,コンテキスト情報をキャプチャし,それを利用して回答を生成する。
我々は,BLEUスコアとセマンティック類似度を含む4つの適切な指標を用いて,基礎的真理解に対して生成した回答を評価する。
最大72のBLEUスコアと最大92のセマンティック類似性を達成し、GoogleのAutoML翻訳資料によると、私たちの技術は、フォローアップ質問に対する理解しやすく良い回答を得られることを示す。
また,本手法は,統計的に有意なマージンを有する既存の4つのベースラインよりも優れていた。
また、23人の参加者を対象に、より正確で、より正確で、より有用であることが判明した開発者調査を実施しました。
関連論文リスト
- No Stupid Questions: An Analysis of Question Query Generation for Citation Recommendation [29.419731388642393]
GPT-4o-miniは、答えると、科学論文からの抜粋に関する新たな洞察を公開することができる。
本研究では,これらの質問を検索クエリとして有効性を評価し,マスク付きターゲット文書の検索とランク付けに有効性を評価する。
論文 参考訳(メタデータ) (2025-06-09T20:13:32Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - Improved IR-based Bug Localization with Intelligent Relevance Feedback [2.9312156642007294]
ソフトウェアバグは、開発とメンテナンスにおいて重大な課題となり、実践者は、バグを扱うのに約50%の時間を費やします。
既存の多くのテクニックでは、バグレポートとソースコードの間のテキストおよび意味的関連性を使用して、報告されたバグをローカライズするために、Information Retrieval (IR)を採用している。
本稿では,バグレポートとコードの関連性を評価することによって,コンテキストギャップに対処する新たなバグローカライゼーション手法であるBRaInを提案する。
論文 参考訳(メタデータ) (2025-01-17T20:29:38Z) - Open Domain Question Answering with Conflicting Contexts [55.739842087655774]
あいまいでオープンなドメインの質問の25%は、Google Searchを使って検索すると、コンフリクトのあるコンテキストにつながります。
我々はアノテータに正しい回答の選択についての説明を依頼する。
論文 参考訳(メタデータ) (2024-10-16T07:24:28Z) - I Could've Asked That: Reformulating Unanswerable Questions [89.93173151422636]
我々は、解決不可能な質問を改定するためのオープンソースおよびプロプライエタリなモデルを評価する。
GPT-4とLlama2-7Bは、それぞれ26%と12%しか質問を修正できなかった。
ベンチマークとコードを公開して実験を再現します。
論文 参考訳(メタデータ) (2024-07-24T17:59:07Z) - Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。
本論文では,NLP手法の組み合わせによる解を提案する。
カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文 参考訳(メタデータ) (2022-12-13T02:32:42Z) - Explaining Software Bugs Leveraging Code Structures in Neural Machine
Translation [5.079750706023254]
Bugsplainerは、バグ修正コミットの大規模なコーパスから学ぶことによって、ソフトウェアバグの自然言語説明を生成する。
3つのパフォーマンス指標を用いて評価したところ、BugsplainerはGoogleの標準に従って理解しやすく良い説明を生成できることがわかった。
また、Bugsplainerによる説明がベースラインよりも正確で、より正確で、より有用であることが判明した、20人の参加者を対象にした開発者スタディも実施しました。
論文 参考訳(メタデータ) (2022-12-08T22:19:45Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - Automatic Classification of Bug Reports Based on Multiple Text
Information and Reports' Intention [37.67372105858311]
本稿では,バグレポートの自動分類手法を提案する。
イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図も考慮することである。
提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。
論文 参考訳(メタデータ) (2022-08-02T06:44:51Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Attention-based model for predicting question relatedness on Stack
Overflow [0.0]
Stack Overflowにおける質問間の関連性を自動的に予測するアテンションベースの文対相互作用モデル(ASIM)を提案する。
ASIMは、Precision、Recall、Micro-F1評価メトリクスのベースラインアプローチを大幅に改善しました。
私たちのモデルは、Ask Ubuntuの重複質問検出タスクでもうまく機能します。
論文 参考訳(メタデータ) (2021-03-19T12:18:03Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。