Fugu-MT 論文翻訳(概要): An Empirical Study on the Classification of Bug Reports with Machine Learning

論文の概要: An Empirical Study on the Classification of Bug Reports with Machine Learning

arxiv url: http://arxiv.org/abs/2503.00660v1
Date: Sat, 01 Mar 2025 23:19:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.536052
Title: An Empirical Study on the Classification of Bug Reports with Machine Learning
Title（参考訳）: 機械学習を用いたバグレポートの分類に関する実証的研究
Authors: Renato Andrade, César Teixeira, Nuno Laranjeiro, Marco Vieira,
Abstract要約: 課題報告の分類処理において,異なる要因(プロジェクト言語,報告内容など)がモデルの性能に与える影響について検討する。 Support Vector Machine, Logistic Regression, Random Forestは課題レポートの分類に有効である。不均一なプロジェクトに基づくモデルは、トレーニング中に存在しないプロジェクトからのレポートを分類することができる。
参考スコア（独自算出の注目度）: 1.1499574149885023
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software defects are a major threat to the reliability of computer systems. The literature shows that more than 30% of bug reports submitted in large software projects are misclassified (i.e., are feature requests, or mistakes made by the bug reporter), leading developers to place great effort in manually inspecting them. Machine Learning algorithms can be used for the automatic classification of issue reports. Still, little is known regarding key aspects of training models, such as the influence of programming languages and issue tracking systems. In this paper, we use a dataset containing more than 660,000 issue reports, collected from heterogeneous projects hosted in different issue tracking systems, to study how different factors (e.g., project language, report content) can influence the performance of models in handling classification of issue reports. Results show that using the report title or description does not significantly differ; Support Vector Machine, Logistic Regression, and Random Forest are effective in classifying issue reports; programming languages and issue tracking systems influence classification outcomes; and models based on heterogeneous projects can classify reports from projects not present during training. Based on findings, we propose guidelines for future research, including recommendations for using heterogeneous data and selecting high-performing algorithms.
Abstract（参考訳）: ソフトウェア欠陥は、コンピュータシステムの信頼性に対する大きな脅威である。この文献によると、大規模なソフトウェアプロジェクトで提出されたバグレポートの30%以上が誤って分類されている(機能要求やバグレポーターのミスなど)。機械学習アルゴリズムは、イシューレポートの自動分類に使用することができる。それでも、プログラミング言語や問題追跡システムの影響など、トレーニングモデルの重要な側面についてはほとんど知られていない。本稿では,異なる課題追跡システムにホストされている異種プロジェクトから収集された6万件以上の課題報告を含むデータセットを用いて,課題報告の分類処理におけるモデルの性能に,異なる要因(プロジェクト言語,報告内容など)がどのように影響するかを検討する。その結果、レポートのタイトルや記述は違いがなく、サポートベクターマシン、ロジスティック回帰、ランダムフォレストは課題レポートの分類に有効であること、プログラミング言語や課題追跡システムが分類結果に影響を与えること、異種プロジェクトに基づくモデルは訓練中に存在しないプロジェクトからのレポートを分類できることがわかった。そこで本研究では,異種データの利用や高性能アルゴリズムの選択など,今後の研究のガイドラインを提案する。

関連論文リスト

Automated Bug Report Prioritization in Large Open-Source Projects [3.9134031118910264]
本稿では,バグレポートの自然言語テキストに基づく自動バグ優先順位付け手法を提案する。我々は、TopicMiner-MTMと呼ばれるLDAの変種を用いてトピックモデリングを行い、BERT大言語モデルを用いてテキスト分類を行う。 Eclipse Platformプロジェクトの85,156のバグレポートを含む既存のリファレンスデータセットを用いた実験結果から、バグレポートの優先度予測の正確性、正確性、リコール、F1測定の点で、既存のアプローチよりも優れています。
論文参考訳（メタデータ） (2025-04-22T13:57:48Z)
Automated Duplicate Bug Report Detection in Large Open Bug Repositories [3.481985817302898]
大規模なオープンソースプロジェクトのユーザやコントリビュータは,問題追跡システムにソフトウェア欠陥や拡張要求(バグレポートとして知られる)を報告している。オープンバグレポジトリにおける重複バグレポートを自動的に検出する機械学習手法に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2025-04-21T01:55:54Z)
Aligning Programming Language and Natural Language: Exploring Design Choices in Multi-Modal Transformer-Based Embedding for Bug Localization [0.7564784873669823]
バグローカライゼーション(バグローカライゼーション)とは、プログラミング言語のソースコードファイルの識別である。本研究は,14種類の異なる埋め込みモデルを評価し,様々な設計選択の効果について考察した。以上の結果から,プレトレーニング戦略が組込みの質に大きく影響していることが示唆された。
論文参考訳（メタデータ） (2024-06-25T15:01:39Z)
Towards Weakly-Supervised Hate Speech Classification Across Datasets [47.101942709219784]
そこで本研究では,テキスト分類モデルの有効性について検討した。また,HS分類モデルの一般化性の低さの原因について,詳細な定量的,定性的な分析を行った。
論文参考訳（メタデータ） (2023-05-04T08:15:40Z)
Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。本論文では,NLP手法の組み合わせによる解を提案する。カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文参考訳（メタデータ） (2022-12-13T02:32:42Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
Automatic Classification of Bug Reports Based on Multiple Text Information and Reports' Intention [37.67372105858311]
本稿では,バグレポートの自動分類手法を提案する。イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図も考慮することである。提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。
論文参考訳（メタデータ） (2022-08-02T06:44:51Z)
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文参考訳（メタデータ） (2022-06-05T22:31:45Z)
Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文参考訳（メタデータ） (2022-05-25T15:26:48Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)
Automatic Issue Classifier: A Transfer Learning Framework for Classifying Issue Reports [0.0]
私たちはRoBERTaと呼ばれる既製のニューラルネットワークを使って、問題を分類しています。本稿では,問題レポートを複数ラベル設定で分類するアプローチを提案する。我々はRoBERTaと呼ばれる市販のニューラルネットワークを用いて,問題レポートの分類を行う。
論文参考訳（メタデータ） (2022-02-12T21:43:08Z)
DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文参考訳（メタデータ） (2022-01-14T00:16:57Z)
Early Detection of Security-Relevant Bug Reports using Machine Learning: How Far Are We? [6.438136820117887]
典型的なメンテナンスシナリオでは、セキュリティ関連バグレポートは、修正パッチを作成する際に開発チームによって優先される。オープンなセキュリティ関連バグレポートは、攻撃者がゼロデイ攻撃を実行するために活用できる機密情報の重大な漏洩になる可能性がある。近年,機械学習に基づくセキュリティ関連バグレポートの検出手法が,有望な性能で報告されている。
論文参考訳（メタデータ） (2021-12-19T11:30:29Z)
S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。 BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文参考訳（メタデータ） (2021-03-18T21:10:41Z)
Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文参考訳（メタデータ） (2021-01-16T23:45:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。