Fugu-MT 論文翻訳(概要): Automatic Classification of Bug Reports Based on Multiple Text Information and Reports' Intention

論文の概要: Automatic Classification of Bug Reports Based on Multiple Text Information and Reports' Intention

arxiv url: http://arxiv.org/abs/2208.01274v1
Date: Tue, 2 Aug 2022 06:44:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-03 12:56:48.385816
Title: Automatic Classification of Bug Reports Based on Multiple Text Information and Reports' Intention
Title（参考訳）: 複数のテキスト情報と報告意図に基づくバグレポートの自動分類
Authors: Fanqi Meng, Xuesong Wang, Jingdong Wang and Peifang Wang
Abstract要約: 本稿では,バグレポートの自動分類手法を提案する。イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図も考慮することである。提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。
参考スコア（独自算出の注目度）: 37.67372105858311
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid growth of software scale and complexity, a large number of bug reports are submitted to the bug tracking system. In order to speed up defect repair, these reports need to be accurately classified so that they can be sent to the appropriate developers. However, the existing classification methods only use the text information of the bug report, which leads to their low performance. To solve the above problems, this paper proposes a new automatic classification method for bug reports. The innovation is that when categorizing bug reports, in addition to using the text information of the report, the intention of the report (i.e. suggestion or explanation) is also considered, thereby improving the performance of the classification. First, we collect bug reports from four ecosystems (Apache, Eclipse, Gentoo, Mozilla) and manually annotate them to construct an experimental data set. Then, we use Natural Language Processing technology to preprocess the data. On this basis, BERT and TF-IDF are used to extract the features of the intention and the multiple text information. Finally, the features are used to train the classifiers. The experimental result on five classifiers (including K-Nearest Neighbor, Naive Bayes, Logistic Regression, Support Vector Machine, and Random Forest) show that our proposed method achieves better performance and its F-Measure achieves from 87.3% to 95.5%.
Abstract（参考訳）: ソフトウェアの規模と複雑さの急速な拡大に伴い、多くのバグレポートがバグトラッキングシステムに提出される。欠陥修復をスピードアップするために、これらのレポートを適切な開発者に送信できるように、正確に分類する必要がある。しかし,既存の分類手法では,バグレポートのテキスト情報のみを使用するため,性能が低下する。そこで本研究では,バグレポートの自動分類手法を提案する。イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図(提案や説明など)も考慮し、分類の性能を向上させることである。まず4つのエコシステム(Apache、Eclipse、Gentoo、Mozilla)からバグレポートを収集し、手動でアノテートして実験的なデータセットを構築します。次に,自然言語処理技術を用いてデータを前処理する。 BERTとTF-IDFは、目的と複数テキスト情報の特徴を抽出するために使用される。最後に、これらの機能は分類器のトレーニングに使用される。 K-Nearest Neighbor, Naive Bayes, Logistic Regression, Support Vector Machine, Random Forestの5つの分類器による実験結果から,提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。

関連論文リスト

BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。難易度および多種多様なバグを合成する新しい方法を提案する。
論文参考訳（メタデータ） (2025-10-22T17:58:56Z)
Automated Duplicate Bug Report Detection in Large Open Bug Repositories [3.481985817302898]
大規模なオープンソースプロジェクトのユーザやコントリビュータは,問題追跡システムにソフトウェア欠陥や拡張要求(バグレポートとして知られる)を報告している。オープンバグレポジトリにおける重複バグレポートを自動的に検出する機械学習手法に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2025-04-21T01:55:54Z)
Buggin: Automatic intrinsic bugs classification model using NLP and ML [0.0]
本稿では、自然言語処理(NLP)技術を用いて、固有のバグを自動的に識別する。本稿では,バグレポートのタイトルと記述文に適用した2つの埋め込み手法であるseBERTとTF-IDFを用いる。結果として得られる埋め込みは、Support Vector Machine、Logistic Regression、Decision Tree、Random Forest、K-Nearest Neighborsといった、確立された機械学習アルゴリズムにフィードバックされる。
論文参考訳（メタデータ） (2025-04-02T16:23:08Z)
Understanding the Impact of Domain Term Explanation on Duplicate Bug Report Detection [2.9312156642007294]
重複バグレポートはバグトラッキングシステム(例えばBugzilla)の全レポートの42%を占める。伝統的な技法は、しばしばテキストに類似した複製を検出することに重点を置いている。オープンソースプロジェクトのバグレポートの約78%は非常に短い(例:100語未満)。
論文参考訳（メタデータ） (2025-03-24T16:09:37Z)
Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。 PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。 PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文参考訳（メタデータ） (2025-03-06T09:14:02Z)
An Empirical Study on the Classification of Bug Reports with Machine Learning [1.1499574149885023]
課題報告の分類処理において,異なる要因(プロジェクト言語,報告内容など)がモデルの性能に与える影響について検討する。 Support Vector Machine, Logistic Regression, Random Forestは課題レポートの分類に有効である。不均一なプロジェクトに基づくモデルは、トレーニング中に存在しないプロジェクトからのレポートを分類することができる。
論文参考訳（メタデータ） (2025-03-01T23:19:56Z)
SEDAC: A CVAE-Based Data Augmentation Method for Security Bug Report Identification [0.0]
現実の世界では、セキュリティバグ報告の割合は極めて低い。 SEDACは、同様のバグレポートベクターを生成する新しいSBR識別方法である。 g測定の基準線は14.24%から50.10%の改善で上回っている。
論文参考訳（メタデータ） (2024-01-22T15:53:52Z)
On Using GUI Interaction Data to Improve Text Retrieval-based Bug Localization [10.717184444794505]
エンドユーザー向けアプリケーションでは、バグレポート内の情報とGUIの情報とを結びつけることにより、既存のバグローカライゼーション技術を改善することができるという仮説を考察する。当社は,Androidアプリの完全ローカライズおよび再現可能な真のバグに関する現在の最大のデータセットを,対応するバグレポートとともに公開しています。
論文参考訳（メタデータ） (2023-10-12T07:14:22Z)
A Comparative Study of Text Embedding Models for Semantic Text Similarity in Bug Reports [0.0]
既存のデータベースから同様のバグレポートを取得することは、バグを解決するのに必要な時間と労力を削減するのに役立つ。我々はTF-IDF(Baseline)、FastText、Gensim、BERT、ADAなどの埋め込みモデルについて検討した。本研究は, 類似のバグレポートを検索するための埋め込み手法の有効性について考察し, 適切なバグレポートを選択することの影響を明らかにする。
論文参考訳（メタデータ） (2023-08-17T21:36:56Z)
Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。本論文では,NLP手法の組み合わせによる解を提案する。カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文参考訳（メタデータ） (2022-12-13T02:32:42Z)
Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文参考訳（メタデータ） (2022-11-11T16:37:33Z)
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文参考訳（メタデータ） (2022-06-05T22:31:45Z)
Automatic Issue Classifier: A Transfer Learning Framework for Classifying Issue Reports [0.0]
私たちはRoBERTaと呼ばれる既製のニューラルネットワークを使って、問題を分類しています。本稿では,問題レポートを複数ラベル設定で分類するアプローチを提案する。我々はRoBERTaと呼ばれる市販のニューラルネットワークを用いて,問題レポートの分類を行う。
論文参考訳（メタデータ） (2022-02-12T21:43:08Z)
DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文参考訳（メタデータ） (2022-01-14T00:16:57Z)
S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。 BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文参考訳（メタデータ） (2021-03-18T21:10:41Z)
CLARA: Clinical Report Auto-completion [56.206459591367405]
CLARA(CLinicit Al It Report It Auto-Completion)は、医師のアンカーワードと部分的に完成した文に基づいて、文章でレポートを生成するインタラクティブな方法である。実験では,X線で0.393 CIDEr,0.248 BLEU-4,脳波で0.482 CIDEr,0.491 BLEU-4を得た。
論文参考訳（メタデータ） (2020-02-26T18:45:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。