論文の概要: Employing Deep Learning and Structured Information Retrieval to Answer
Clarification Questions on Bug Reports
- arxiv url: http://arxiv.org/abs/2304.12494v3
- Date: Sat, 8 Jul 2023 12:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 12:37:00.553524
- Title: Employing Deep Learning and Structured Information Retrieval to Answer
Clarification Questions on Bug Reports
- Title(参考訳): バグレポートの明確化問題に対するディープラーニングと構造化情報検索の利用
- Authors: Usmi Mukherjee and Mohammad Masudur Rahman
- Abstract要約: 本稿では,CodeT5 と Lucene を併用して質問に対する回答を推薦する手法を提案する。
我々は,正規化Smooth BLEUスコア, METEOR, Word Mover's Distance, Semantic similarity などの類似度指標を用いて,手動で注釈付き回答を評価した。
- 参考スコア(独自算出の注目度): 3.462843004438096
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Software bug reports reported on bug-tracking systems often lack crucial
information for the developers to promptly resolve them, costing companies
billions of dollars. There has been significant research on effectively
eliciting information from bug reporters in bug tracking systems using
different templates that bug reporters need to use. However, the need for
asking follow-up questions persists. Recent studies propose techniques to
suggest these follow-up questions to help developers obtain the missing
details, but there has been little research on answering these follow up
questions, which are often unanswered. In this paper, we propose a novel
approach that uses CodeT5 in combination with Lucene, an information retrieval
technique that leverages the relevance of different bug reports, their
components, and follow-up questions to recommend answers. These top-performing
answers, along with their bug report, serve as additional context apart from
the deficient bug report to the deep learning model for generating an answer.
We evaluate our recommended answers with the manually annotated answers using
similarity metrics like Normalized Smooth BLEU Score, METEOR, Word Mover's
Distance, and Semantic Similarity. We achieve a BLEU Score of up to 34 and
Semantic Similarity of up to 64 which shows that the answers generated are
understandable and good according to Google's standard and can outperform
multiple baselines.
- Abstract(参考訳): バグ追跡システムに関するソフトウェアバグ報告は、開発者が迅速に解決するための重要な情報を欠いていることが多い。
バグレポーターが使用するさまざまなテンプレートを使用して、バグトラッキングシステムにおいて、バグレポーターから情報を効果的に引き出すための重要な研究が行われている。
しかし、フォローアップ質問の必要性は続いている。
最近の研究では、開発者が不足した詳細を知るのを助けるために、これらのフォローアップ質問を提案する手法が提案されているが、フォローアップ質問に答える研究はほとんど行われていない。
本稿では,CodeT5とLuceneを併用した新しい手法を提案する。これは,異なるバグレポート,そのコンポーネント,および回答を推薦するためのフォローアップ質問の関連性を活用した情報検索手法である。
これらのトップパフォーマンスの回答は、バグレポートとともに、欠陥のあるバグレポートから、回答を生成するディープラーニングモデルまで、追加のコンテキストとして機能する。
我々は,正規化Smooth BLEUスコア, METEOR, Word Mover's Distance, Semantic similarity などの類似度指標を用いて,手動で注釈付き回答を評価した。
我々は,最大34のBLEUスコアと64のセマンティック類似性を達成し,生成した回答がGoogleの標準に従って理解され,良好であることを示し,複数のベースラインを上回り得ることを示す。
関連論文リスト
- Open Domain Question Answering with Conflicting Contexts [55.739842087655774]
あいまいでオープンなドメインの質問の25%は、Google Searchを使って検索すると、コンフリクトのあるコンテキストにつながります。
我々はアノテータに正しい回答の選択についての説明を依頼する。
論文 参考訳(メタデータ) (2024-10-16T07:24:28Z) - I Could've Asked That: Reformulating Unanswerable Questions [89.93173151422636]
我々は、解決不可能な質問を改定するためのオープンソースおよびプロプライエタリなモデルを評価する。
GPT-4とLlama2-7Bは、それぞれ26%と12%しか質問を修正できなかった。
ベンチマークとコードを公開して実験を再現します。
論文 参考訳(メタデータ) (2024-07-24T17:59:07Z) - Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。
本論文では,NLP手法の組み合わせによる解を提案する。
カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文 参考訳(メタデータ) (2022-12-13T02:32:42Z) - Explaining Software Bugs Leveraging Code Structures in Neural Machine
Translation [5.079750706023254]
Bugsplainerは、バグ修正コミットの大規模なコーパスから学ぶことによって、ソフトウェアバグの自然言語説明を生成する。
3つのパフォーマンス指標を用いて評価したところ、BugsplainerはGoogleの標準に従って理解しやすく良い説明を生成できることがわかった。
また、Bugsplainerによる説明がベースラインよりも正確で、より正確で、より有用であることが判明した、20人の参加者を対象にした開発者スタディも実施しました。
論文 参考訳(メタデータ) (2022-12-08T22:19:45Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - Automatic Classification of Bug Reports Based on Multiple Text
Information and Reports' Intention [37.67372105858311]
本稿では,バグレポートの自動分類手法を提案する。
イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図も考慮することである。
提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。
論文 参考訳(メタデータ) (2022-08-02T06:44:51Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Attention-based model for predicting question relatedness on Stack
Overflow [0.0]
Stack Overflowにおける質問間の関連性を自動的に予測するアテンションベースの文対相互作用モデル(ASIM)を提案する。
ASIMは、Precision、Recall、Micro-F1評価メトリクスのベースラインアプローチを大幅に改善しました。
私たちのモデルは、Ask Ubuntuの重複質問検出タスクでもうまく機能します。
論文 参考訳(メタデータ) (2021-03-19T12:18:03Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。