論文の概要: An Empirical Study on the Classification of Bug Reports with Machine Learning
- arxiv url: http://arxiv.org/abs/2503.00660v1
- Date: Sat, 01 Mar 2025 23:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:36.510023
- Title: An Empirical Study on the Classification of Bug Reports with Machine Learning
- Title(参考訳): 機械学習を用いたバグレポートの分類に関する実証的研究
- Authors: Renato Andrade, César Teixeira, Nuno Laranjeiro, Marco Vieira,
- Abstract要約: 課題報告の分類処理において,異なる要因(プロジェクト言語,報告内容など)がモデルの性能に与える影響について検討する。
Support Vector Machine, Logistic Regression, Random Forestは課題レポートの分類に有効である。
不均一なプロジェクトに基づくモデルは、トレーニング中に存在しないプロジェクトからのレポートを分類することができる。
- 参考スコア(独自算出の注目度): 1.1499574149885023
- License:
- Abstract: Software defects are a major threat to the reliability of computer systems. The literature shows that more than 30% of bug reports submitted in large software projects are misclassified (i.e., are feature requests, or mistakes made by the bug reporter), leading developers to place great effort in manually inspecting them. Machine Learning algorithms can be used for the automatic classification of issue reports. Still, little is known regarding key aspects of training models, such as the influence of programming languages and issue tracking systems. In this paper, we use a dataset containing more than 660,000 issue reports, collected from heterogeneous projects hosted in different issue tracking systems, to study how different factors (e.g., project language, report content) can influence the performance of models in handling classification of issue reports. Results show that using the report title or description does not significantly differ; Support Vector Machine, Logistic Regression, and Random Forest are effective in classifying issue reports; programming languages and issue tracking systems influence classification outcomes; and models based on heterogeneous projects can classify reports from projects not present during training. Based on findings, we propose guidelines for future research, including recommendations for using heterogeneous data and selecting high-performing algorithms.
- Abstract(参考訳): ソフトウェア欠陥は、コンピュータシステムの信頼性に対する大きな脅威である。
この文献によると、大規模なソフトウェアプロジェクトで提出されたバグレポートの30%以上が誤って分類されている(機能要求やバグレポーターのミスなど)。
機械学習アルゴリズムは、イシューレポートの自動分類に使用することができる。
それでも、プログラミング言語や問題追跡システムの影響など、トレーニングモデルの重要な側面についてはほとんど知られていない。
本稿では,異なる課題追跡システムにホストされている異種プロジェクトから収集された6万件以上の課題報告を含むデータセットを用いて,課題報告の分類処理におけるモデルの性能に,異なる要因(プロジェクト言語,報告内容など)がどのように影響するかを検討する。
その結果、レポートのタイトルや記述は違いがなく、サポートベクターマシン、ロジスティック回帰、ランダムフォレストは課題レポートの分類に有効であること、プログラミング言語や課題追跡システムが分類結果に影響を与えること、異種プロジェクトに基づくモデルは訓練中に存在しないプロジェクトからのレポートを分類できることがわかった。
そこで本研究では,異種データの利用や高性能アルゴリズムの選択など,今後の研究のガイドラインを提案する。
関連論文リスト
- Aligning Programming Language and Natural Language: Exploring Design Choices in Multi-Modal Transformer-Based Embedding for Bug Localization [0.7564784873669823]
バグローカライゼーション(バグローカライゼーション)とは、プログラミング言語のソースコードファイルの識別である。
本研究は,14種類の異なる埋め込みモデルを評価し,様々な設計選択の効果について考察した。
以上の結果から,プレトレーニング戦略が組込みの質に大きく影響していることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T15:01:39Z) - Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。
本論文では,NLP手法の組み合わせによる解を提案する。
カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文 参考訳(メタデータ) (2022-12-13T02:32:42Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Automatic Classification of Bug Reports Based on Multiple Text
Information and Reports' Intention [37.67372105858311]
本稿では,バグレポートの自動分類手法を提案する。
イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図も考慮することである。
提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。
論文 参考訳(メタデータ) (2022-08-02T06:44:51Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Automatic Issue Classifier: A Transfer Learning Framework for
Classifying Issue Reports [0.0]
私たちはRoBERTaと呼ばれる既製のニューラルネットワークを使って、問題を分類しています。
本稿では,問題レポートを複数ラベル設定で分類するアプローチを提案する。我々はRoBERTaと呼ばれる市販のニューラルネットワークを用いて,問題レポートの分類を行う。
論文 参考訳(メタデータ) (2022-02-12T21:43:08Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Early Detection of Security-Relevant Bug Reports using Machine Learning:
How Far Are We? [6.438136820117887]
典型的なメンテナンスシナリオでは、セキュリティ関連バグレポートは、修正パッチを作成する際に開発チームによって優先される。
オープンなセキュリティ関連バグレポートは、攻撃者がゼロデイ攻撃を実行するために活用できる機密情報の重大な漏洩になる可能性がある。
近年,機械学習に基づくセキュリティ関連バグレポートの検出手法が,有望な性能で報告されている。
論文 参考訳(メタデータ) (2021-12-19T11:30:29Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。