論文の概要: Automatic Classification of Bug Reports Based on Multiple Text
Information and Reports' Intention
- arxiv url: http://arxiv.org/abs/2208.01274v1
- Date: Tue, 2 Aug 2022 06:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 12:56:48.385816
- Title: Automatic Classification of Bug Reports Based on Multiple Text
Information and Reports' Intention
- Title(参考訳): 複数のテキスト情報と報告意図に基づくバグレポートの自動分類
- Authors: Fanqi Meng, Xuesong Wang, Jingdong Wang and Peifang Wang
- Abstract要約: 本稿では,バグレポートの自動分類手法を提案する。
イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図も考慮することである。
提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。
- 参考スコア(独自算出の注目度): 37.67372105858311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid growth of software scale and complexity, a large number of bug
reports are submitted to the bug tracking system. In order to speed up defect
repair, these reports need to be accurately classified so that they can be sent
to the appropriate developers. However, the existing classification methods
only use the text information of the bug report, which leads to their low
performance. To solve the above problems, this paper proposes a new automatic
classification method for bug reports. The innovation is that when categorizing
bug reports, in addition to using the text information of the report, the
intention of the report (i.e. suggestion or explanation) is also considered,
thereby improving the performance of the classification. First, we collect bug
reports from four ecosystems (Apache, Eclipse, Gentoo, Mozilla) and manually
annotate them to construct an experimental data set. Then, we use Natural
Language Processing technology to preprocess the data. On this basis, BERT and
TF-IDF are used to extract the features of the intention and the multiple text
information. Finally, the features are used to train the classifiers. The
experimental result on five classifiers (including K-Nearest Neighbor, Naive
Bayes, Logistic Regression, Support Vector Machine, and Random Forest) show
that our proposed method achieves better performance and its F-Measure achieves
from 87.3% to 95.5%.
- Abstract(参考訳): ソフトウェアの規模と複雑さの急速な拡大に伴い、多くのバグレポートがバグトラッキングシステムに提出される。
欠陥修復をスピードアップするために、これらのレポートを適切な開発者に送信できるように、正確に分類する必要がある。
しかし,既存の分類手法では,バグレポートのテキスト情報のみを使用するため,性能が低下する。
そこで本研究では,バグレポートの自動分類手法を提案する。
イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図(提案や説明など)も考慮し、分類の性能を向上させることである。
まず4つのエコシステム(Apache、Eclipse、Gentoo、Mozilla)からバグレポートを収集し、手動でアノテートして実験的なデータセットを構築します。
次に,自然言語処理技術を用いてデータを前処理する。
BERTとTF-IDFは、目的と複数テキスト情報の特徴を抽出するために使用される。
最後に、これらの機能は分類器のトレーニングに使用される。
K-Nearest Neighbor, Naive Bayes, Logistic Regression, Support Vector Machine, Random Forestの5つの分類器による実験結果から,提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。
関連論文リスト
- SEDAC: A CVAE-Based Data Augmentation Method for Security Bug Report
Identification [0.0]
現実の世界では、セキュリティバグ報告の割合は極めて低い。
SEDACは、同様のバグレポートベクターを生成する新しいSBR識別方法である。
g測定の基準線は14.24%から50.10%の改善で上回っている。
論文 参考訳(メタデータ) (2024-01-22T15:53:52Z) - On Using GUI Interaction Data to Improve Text Retrieval-based Bug
Localization [10.717184444794505]
エンドユーザー向けアプリケーションでは、バグレポート内の情報とGUIの情報とを結びつけることにより、既存のバグローカライゼーション技術を改善することができるという仮説を考察する。
当社は,Androidアプリの完全ローカライズおよび再現可能な真のバグに関する現在の最大のデータセットを,対応するバグレポートとともに公開しています。
論文 参考訳(メタデータ) (2023-10-12T07:14:22Z) - A Comparative Study of Text Embedding Models for Semantic Text
Similarity in Bug Reports [0.0]
既存のデータベースから同様のバグレポートを取得することは、バグを解決するのに必要な時間と労力を削減するのに役立つ。
我々はTF-IDF(Baseline)、FastText、Gensim、BERT、ADAなどの埋め込みモデルについて検討した。
本研究は, 類似のバグレポートを検索するための埋め込み手法の有効性について考察し, 適切なバグレポートを選択することの影響を明らかにする。
論文 参考訳(メタデータ) (2023-08-17T21:36:56Z) - Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。
本論文では,NLP手法の組み合わせによる解を提案する。
カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文 参考訳(メタデータ) (2022-12-13T02:32:42Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Automatic Issue Classifier: A Transfer Learning Framework for
Classifying Issue Reports [0.0]
私たちはRoBERTaと呼ばれる既製のニューラルネットワークを使って、問題を分類しています。
本稿では,問題レポートを複数ラベル設定で分類するアプローチを提案する。我々はRoBERTaと呼ばれる市販のニューラルネットワークを用いて,問題レポートの分類を行う。
論文 参考訳(メタデータ) (2022-02-12T21:43:08Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z) - CLARA: Clinical Report Auto-completion [56.206459591367405]
CLARA(CLinicit Al It Report It Auto-Completion)は、医師のアンカーワードと部分的に完成した文に基づいて、文章でレポートを生成するインタラクティブな方法である。
実験では,X線で0.393 CIDEr,0.248 BLEU-4,脳波で0.482 CIDEr,0.491 BLEU-4を得た。
論文 参考訳(メタデータ) (2020-02-26T18:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。