論文の概要: Learning Software Bug Reports: A Systematic Literature Review
- arxiv url: http://arxiv.org/abs/2507.04422v1
- Date: Sun, 06 Jul 2025 15:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.175162
- Title: Learning Software Bug Reports: A Systematic Literature Review
- Title(参考訳): ソフトウェアバグレポートの学習: 体系的な文献レビュー
- Authors: Guoming Long, Jingzhi Gong, Hui Fang, Tao Chen,
- Abstract要約: 機械学習(ML)は、バグレポートからの情報の理解、抽出、相関を自動化することを目的としている。
その重要性は増しているが、この地域では包括的なレビューは行われていない。
本稿では,1,825件の論文を網羅した体系的な文献レビューを行い,詳細な分析のために204件を選択した。
- 参考スコア(独自算出の注目度): 4.019641745947759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advancement of artificial intelligence, especially machine learning (ML), has significantly impacted software engineering research, including bug report analysis. ML aims to automate the understanding, extraction, and correlation of information from bug reports. Despite its growing importance, there has been no comprehensive review in this area. In this paper, we present a systematic literature review covering 1,825 papers, selecting 204 for detailed analysis. We derive seven key findings: 1) Extensive use of CNN, LSTM, and $k$NN for bug report analysis, with advanced models like BERT underutilized due to their complexity. 2) Word2Vec and TF-IDF are popular for feature representation, with a rise in deep learning approaches. 3) Stop word removal is the most common preprocessing, with structural methods rising after 2020. 4) Eclipse and Mozilla are the most frequently evaluated software projects. 5) Bug categorization is the most common task, followed by bug localization and severity prediction. 6) There is increasing attention on specific bugs like non-functional and performance bugs. 7) Common evaluation metrics are F1-score, Recall, Precision, and Accuracy, with $k$-fold cross-validation preferred for model evaluation. 8) Many studies lack robust statistical tests. We also identify six promising future research directions to provide useful insights for practitioners.
- Abstract(参考訳): 人工知能の最近の進歩、特に機械学習(ML)は、バグレポート分析を含むソフトウェア工学の研究に大きな影響を与えている。
MLは、バグレポートからの情報の理解、抽出、相関を自動化することを目的としている。
その重要性は増しているが、この地域では包括的なレビューは行われていない。
本稿では,1,825件の論文を網羅した体系的な文献レビューを行い,詳細な分析のために204件を選択した。
私たちは7つの重要な発見を導き出します。
1) CNN,LSTM,および$k$NNをバグレポート解析に広く使用した。
2) Word2Vec と TF-IDF は特徴表現に人気があり,ディープラーニングのアプローチが盛んである。
3) 単語の削除は最も一般的な前処理であり, 構造的手法は2020年以降に上昇する。
4) EclipseとMozillaは最も頻繁に評価されているソフトウェアプロジェクトです。
5)バグ分類が最も一般的なタスクはバグの局所化と重症度予測である。
6)非機能バグやパフォーマンスバグといった特定のバグに注目が集まっている。
7) 一般的な評価指標はF1スコア、リコール、精度、精度であり、モデル評価には$k$-foldのクロスバリデーションが好ましい。
8) 統計検査に乏しい研究が多い。
また,将来有望な6つの研究方向を特定し,実践者に有用な洞察を提供する。
関連論文リスト
- Bug Destiny Prediction in Large Open-Source Software Repositories through Sentiment Analysis and BERT Topic Modeling [3.481985817302898]
バグが解決する前に利用可能な機能を活用して、予測精度を高めます。
本手法は感情分析を取り入れ,感情性スコアと感情分類の両方を導出する。
結果は、感情分析がバグの最終的な結果の貴重な予測要因であることを示している。
論文 参考訳(メタデータ) (2025-04-22T15:18:14Z) - Buggin: Automatic intrinsic bugs classification model using NLP and ML [0.0]
本稿では、自然言語処理(NLP)技術を用いて、固有のバグを自動的に識別する。
本稿では,バグレポートのタイトルと記述文に適用した2つの埋め込み手法であるseBERTとTF-IDFを用いる。
結果として得られる埋め込みは、Support Vector Machine、Logistic Regression、Decision Tree、Random Forest、K-Nearest Neighborsといった、確立された機械学習アルゴリズムにフィードバックされる。
論文 参考訳(メタデータ) (2025-04-02T16:23:08Z) - LLPut: Investigating Large Language Models for Bug Report-Based Input Generation [0.0]
エラーを引き起こすインプットは、ソフトウェアバグの診断と分析において重要な役割を担います。
従来の研究では、様々な自然言語処理(NLP)技術を利用して自動入力抽出を行っている。
大規模言語モデル (LLMs) の出現により、重要な研究課題が生じる: ジェネレーティブLLMは、バグレポートから障害誘発インプットを効果的に抽出できるのか?
論文 参考訳(メタデータ) (2025-03-26T14:25:01Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - FineWAVE: Fine-Grained Warning Verification of Bugs for Automated Static Analysis Tools [18.927121513404924]
ASAT(Automated Static Analysis Tools)は、バグ検出を支援するために、時間とともに進化してきた。
これまでの研究は、報告された警告を検証するための学習ベースの方法を探究してきた。
我々は,バグに敏感な警告をきめ細かい粒度で検証する学習ベースアプローチであるFineWAVEを提案する。
論文 参考訳(メタデータ) (2024-03-24T06:21:35Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - An Empirical Study on Bug Severity Estimation using Source Code Metrics and Static Analysis [0.8621608193534838]
我々は、19のJavaオープンソースプロジェクトと異なる重度ラベルを持つ3,358のバグギーメソッドを調査した。
結果は、コードメトリクスがバグの多いコードを予測するのに有用であることを示しているが、バグの深刻度レベルを見積もることはできない。
当社の分類では、セキュリティバグがほとんどのケースで高い重大性を持っているのに対して、エッジ/バウンダリ障害は低い重大性を持っていることが示されています。
論文 参考訳(メタデータ) (2022-06-26T17:07:23Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。