Fugu-MT 論文翻訳(概要): Learning Software Bug Reports: A Systematic Literature Review

論文の概要: Learning Software Bug Reports: A Systematic Literature Review

arxiv url: http://arxiv.org/abs/2507.04422v1
Date: Sun, 06 Jul 2025 15:17:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:35.175162
Title: Learning Software Bug Reports: A Systematic Literature Review
Title（参考訳）: ソフトウェアバグレポートの学習: 体系的な文献レビュー
Authors: Guoming Long, Jingzhi Gong, Hui Fang, Tao Chen,
Abstract要約: 機械学習(ML)は、バグレポートからの情報の理解、抽出、相関を自動化することを目的としている。その重要性は増しているが、この地域では包括的なレビューは行われていない。本稿では,1,825件の論文を網羅した体系的な文献レビューを行い,詳細な分析のために204件を選択した。
参考スコア（独自算出の注目度）: 4.019641745947759
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent advancement of artificial intelligence, especially machine learning (ML), has significantly impacted software engineering research, including bug report analysis. ML aims to automate the understanding, extraction, and correlation of information from bug reports. Despite its growing importance, there has been no comprehensive review in this area. In this paper, we present a systematic literature review covering 1,825 papers, selecting 204 for detailed analysis. We derive seven key findings: 1) Extensive use of CNN, LSTM, and $k$NN for bug report analysis, with advanced models like BERT underutilized due to their complexity. 2) Word2Vec and TF-IDF are popular for feature representation, with a rise in deep learning approaches. 3) Stop word removal is the most common preprocessing, with structural methods rising after 2020. 4) Eclipse and Mozilla are the most frequently evaluated software projects. 5) Bug categorization is the most common task, followed by bug localization and severity prediction. 6) There is increasing attention on specific bugs like non-functional and performance bugs. 7) Common evaluation metrics are F1-score, Recall, Precision, and Accuracy, with $k$-fold cross-validation preferred for model evaluation. 8) Many studies lack robust statistical tests. We also identify six promising future research directions to provide useful insights for practitioners.
Abstract（参考訳）: 人工知能の最近の進歩、特に機械学習(ML)は、バグレポート分析を含むソフトウェア工学の研究に大きな影響を与えている。 MLは、バグレポートからの情報の理解、抽出、相関を自動化することを目的としている。その重要性は増しているが、この地域では包括的なレビューは行われていない。本稿では,1,825件の論文を網羅した体系的な文献レビューを行い,詳細な分析のために204件を選択した。私たちは7つの重要な発見を導き出します。 1) CNN,LSTM,および$k$NNをバグレポート解析に広く使用した。 2) Word2Vec と TF-IDF は特徴表現に人気があり,ディープラーニングのアプローチが盛んである。 3) 単語の削除は最も一般的な前処理であり, 構造的手法は2020年以降に上昇する。 4) EclipseとMozillaは最も頻繁に評価されているソフトウェアプロジェクトです。 5)バグ分類が最も一般的なタスクはバグの局所化と重症度予測である。 6)非機能バグやパフォーマンスバグといった特定のバグに注目が集まっている。 7) 一般的な評価指標はF1スコア、リコール、精度、精度であり、モデル評価には$k$-foldのクロスバリデーションが好ましい。 8) 統計検査に乏しい研究が多い。また,将来有望な6つの研究方向を特定し,実践者に有用な洞察を提供する。

関連論文リスト

Bug Destiny Prediction in Large Open-Source Software Repositories through Sentiment Analysis and BERT Topic Modeling [3.481985817302898]
バグが解決する前に利用可能な機能を活用して、予測精度を高めます。本手法は感情分析を取り入れ,感情性スコアと感情分類の両方を導出する。結果は、感情分析がバグの最終的な結果の貴重な予測要因であることを示している。
論文参考訳（メタデータ） (2025-04-22T15:18:14Z)
Buggin: Automatic intrinsic bugs classification model using NLP and ML [0.0]
本稿では、自然言語処理(NLP)技術を用いて、固有のバグを自動的に識別する。本稿では,バグレポートのタイトルと記述文に適用した2つの埋め込み手法であるseBERTとTF-IDFを用いる。結果として得られる埋め込みは、Support Vector Machine、Logistic Regression、Decision Tree、Random Forest、K-Nearest Neighborsといった、確立された機械学習アルゴリズムにフィードバックされる。
論文参考訳（メタデータ） (2025-04-02T16:23:08Z)
LLPut: Investigating Large Language Models for Bug Report-Based Input Generation [0.0]
エラーを引き起こすインプットは、ソフトウェアバグの診断と分析において重要な役割を担います。従来の研究では、様々な自然言語処理(NLP)技術を利用して自動入力抽出を行っている。大規模言語モデル (LLMs) の出現により、重要な研究課題が生じる: ジェネレーティブLLMは、バグレポートから障害誘発インプットを効果的に抽出できるのか?
論文参考訳（メタデータ） (2025-03-26T14:25:01Z)
An Empirical Study on the Classification of Bug Reports with Machine Learning [1.1499574149885023]
課題報告の分類処理において,異なる要因(プロジェクト言語,報告内容など)がモデルの性能に与える影響について検討する。 Support Vector Machine, Logistic Regression, Random Forestは課題レポートの分類に有効である。不均一なプロジェクトに基づくモデルは、トレーニング中に存在しないプロジェクトからのレポートを分類することができる。
論文参考訳（メタデータ） (2025-03-01T23:19:56Z)
ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。 ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文参考訳（メタデータ） (2024-12-09T15:11:40Z)
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。 ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。 2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。 GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文参考訳（メタデータ） (2024-10-06T14:59:09Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
FineWAVE: Fine-Grained Warning Verification of Bugs for Automated Static Analysis Tools [18.927121513404924]
ASAT(Automated Static Analysis Tools)は、バグ検出を支援するために、時間とともに進化してきた。これまでの研究は、報告された警告を検証するための学習ベースの方法を探究してきた。我々は,バグに敏感な警告をきめ細かい粒度で検証する学習ベースアプローチであるFineWAVEを提案する。
論文参考訳（メタデータ） (2024-03-24T06:21:35Z)
The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。テキスト内学習と微調整によるラベル付きデータの影響について検討する。次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文参考訳（メタデータ） (2023-08-14T17:17:21Z)
On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文参考訳（メタデータ） (2022-12-20T06:24:25Z)
BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文参考訳（メタデータ） (2022-07-21T20:17:53Z)
An Empirical Study on Bug Severity Estimation using Source Code Metrics and Static Analysis [0.8621608193534838]
我々は、19のJavaオープンソースプロジェクトと異なる重度ラベルを持つ3,358のバグギーメソッドを調査した。結果は、コードメトリクスがバグの多いコードを予測するのに有用であることを示しているが、バグの深刻度レベルを見積もることはできない。当社の分類では、セキュリティバグがほとんどのケースで高い重大性を持っているのに対して、エッジ/バウンダリ障害は低い重大性を持っていることが示されています。
論文参考訳（メタデータ） (2022-06-26T17:07:23Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。