Fugu-MT 論文翻訳(概要): Auto-labelling of Bug Report using Natural Language Processing

論文の概要: Auto-labelling of Bug Report using Natural Language Processing

arxiv url: http://arxiv.org/abs/2212.06334v1
Date: Tue, 13 Dec 2022 02:32:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-14 14:10:13.927156
Title: Auto-labelling of Bug Report using Natural Language Processing
Title（参考訳）: 自然言語処理によるバグレポートの自動ラベリング
Authors: Avinash Patil, Aryan Jadon
Abstract要約: ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。本論文では,NLP手法の組み合わせによる解を提案する。カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The exercise of detecting similar bug reports in bug tracking systems is known as duplicate bug report detection. Having prior knowledge of a bug report's existence reduces efforts put into debugging problems and identifying the root cause. Rule and Query-based solutions recommend a long list of potential similar bug reports with no clear ranking. In addition, triage engineers are less motivated to spend time going through an extensive list. Consequently, this deters the use of duplicate bug report retrieval solutions. In this paper, we have proposed a solution using a combination of NLP techniques. Our approach considers unstructured and structured attributes of a bug report like summary, description and severity, impacted products, platforms, categories, etc. It uses a custom data transformer, a deep neural network, and a non-generalizing machine learning method to retrieve existing identical bug reports. We have performed numerous experiments with significant data sources containing thousands of bug reports and showcased that the proposed solution achieves a high retrieval accuracy of 70% for recall@5.
Abstract（参考訳）: バグトラッキングシステムで同様のバグレポートを検出する作業は、重複バグレポート検出と呼ばれる。バグレポートの存在を事前に知ることで、デバッグ問題や根本原因を特定する作業が軽減される。ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。さらに、トリアージエンジニアは、広範なリストを通すのに時間を費やすモチベーションが低くなっている。これにより、重複したバグレポート検索ソリューションの使用が抑えられる。本論文では,NLP手法の組み合わせによる解を提案する。当社のアプローチでは、要約、説明と深刻度、影響のある製品、プラットフォーム、カテゴリなど、バグレポートの非構造化と構造化属性を考慮に入れています。独自のデータトランスフォーマー、ディープニューラルネットワーク、非一般化機械学習メソッドを使用して、既存の同一のバグレポートを取得する。我々は、何千ものバグレポートを含む重要なデータソースで多くの実験を行い、提案手法がrecall@5で70%高い検索精度を達成することを示した。

関連論文リスト

BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。難易度および多種多様なバグを合成する新しい方法を提案する。
論文参考訳（メタデータ） (2025-10-22T17:58:56Z)
BugsRepo: A Comprehensive Curated Dataset of Bug Reports, Comments and Contributors Information from Bugzilla [0.0]
font Familypplselectfont BugsRepoはMozillaプロジェクトから派生した多面的データセットである。バグレポートのメタデータとコメントのデータセットと,修正あるいはクローズされたバグレポート119,585の詳細な記録が含まれている。第2に、フォントファミリpplselectfont BugsRepoは、Mozillaコミュニティメンバー19,351名からなるコントリビュータ情報データセットを備えている。第3に、データセットは10,351の構造化バグレポートサブセットを提供する。
論文参考訳（メタデータ） (2025-04-26T05:24:21Z)
Automated Duplicate Bug Report Detection in Large Open Bug Repositories [3.481985817302898]
大規模なオープンソースプロジェクトのユーザやコントリビュータは,問題追跡システムにソフトウェア欠陥や拡張要求(バグレポートとして知られる)を報告している。オープンバグレポジトリにおける重複バグレポートを自動的に検出する機械学習手法に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2025-04-21T01:55:54Z)
Understanding the Impact of Domain Term Explanation on Duplicate Bug Report Detection [2.9312156642007294]
重複バグレポートはバグトラッキングシステム(例えばBugzilla)の全レポートの42%を占める。伝統的な技法は、しばしばテキストに類似した複製を検出することに重点を置いている。オープンソースプロジェクトのバグレポートの約78%は非常に短い(例:100語未満)。
論文参考訳（メタデータ） (2025-03-24T16:09:37Z)
Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。 PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。 PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文参考訳（メタデータ） (2025-03-06T09:14:02Z)
The Impact Of Bug Localization Based on Crash Report Mining: A Developers' Perspective [7.952391285456257]
事故報告をグループ化し,バグコードを見つけるためのアプローチを18ヶ月にわたって毎週実施した経験を報告する。この調査で調査されたアプローチは、バギーファイルの大部分を正しく示唆していた。
論文参考訳（メタデータ） (2024-03-16T01:23:01Z)
A Comparative Study of Text Embedding Models for Semantic Text Similarity in Bug Reports [0.0]
既存のデータベースから同様のバグレポートを取得することは、バグを解決するのに必要な時間と労力を削減するのに役立つ。我々はTF-IDF(Baseline)、FastText、Gensim、BERT、ADAなどの埋め込みモデルについて検討した。本研究は, 類似のバグレポートを検索するための埋め込み手法の有効性について考察し, 適切なバグレポートを選択することの影響を明らかにする。
論文参考訳（メタデータ） (2023-08-17T21:36:56Z)
Employing Deep Learning and Structured Information Retrieval to Answer Clarification Questions on Bug Reports [3.462843004438096]
本稿では,CodeT5 と Lucene を併用して質問に対する回答を推薦する手法を提案する。我々は,正規化Smooth BLEUスコア, METEOR, Word Mover's Distance, Semantic similarity などの類似度指標を用いて,手動で注釈付き回答を評価した。
論文参考訳（メタデータ） (2023-04-24T23:29:14Z)
Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文参考訳（メタデータ） (2022-11-11T16:37:33Z)
Automatic Classification of Bug Reports Based on Multiple Text Information and Reports' Intention [37.67372105858311]
本稿では,バグレポートの自動分類手法を提案する。イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図も考慮することである。提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。
論文参考訳（メタデータ） (2022-08-02T06:44:51Z)
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文参考訳（メタデータ） (2022-06-05T22:31:45Z)
Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文参考訳（メタデータ） (2022-05-25T15:26:48Z)
Omni-DETR: Omni-Supervised Object Detection with Transformers [165.4190908259015]
我々は、ラベルなし、完全ラベル付き、弱ラベル付きアノテーションを使用できるOmni教師付きオブジェクト検出の問題を考察する。この統一アーキテクチャの下では、異なる種類の弱いラベルを利用して正確な擬似ラベルを生成することができる。弱いアノテーションは検出性能を向上させるのに役立ち、それらの混合はアノテーションのコストと精度のトレードオフを改善することができる。
論文参考訳（メタデータ） (2022-03-30T06:36:09Z)
DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文参考訳（メタデータ） (2022-01-14T00:16:57Z)
S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。 BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文参考訳（メタデータ） (2021-03-18T21:10:41Z)
Advaita: Bug Duplicity Detection System [1.9624064951902522]
重複バグ率(重複バグの%)は、製品の成熟度、コードのサイズ、プロジェクトに取り組んでいるエンジニアの数に基づいて、1桁(1～9%)から2桁(40%)の範囲にある。重複の検出は、2つのバグが同じ意味を持つかどうかを識別する。このアプローチでは、基本的なテキスト統計的特徴、意味的特徴、文脈的特徴など、複数の機能セットを考慮に入れている。
論文参考訳（メタデータ） (2020-01-24T04:48:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。