論文の概要: Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction
- arxiv url: http://arxiv.org/abs/2402.05645v1
- Date: Thu, 8 Feb 2024 13:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 15:04:57.092345
- Title: Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction
- Title(参考訳): 深層学習に基づくソフトウェア障害予測における再現性の検討
- Authors: Adil Mukhtar, Dietmar Jannach, Franz Wotawa
- Abstract要約: ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。
特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
- 参考スコア(独自算出の注目度): 16.25827159504845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past few years, deep learning methods have been applied for a wide
range of Software Engineering (SE) tasks, including in particular for the
important task of automatically predicting and localizing faults in software.
With the rapid adoption of increasingly complex machine learning models, it
however becomes more and more difficult for scholars to reproduce the results
that are reported in the literature. This is in particular the case when the
applied deep learning models and the evaluation methodology are not properly
documented and when code and data are not shared. Given some recent -- and very
worrying -- findings regarding reproducibility and progress in other areas of
applied machine learning, the goal of this work is to analyze to what extent
the field of software engineering, in particular in the area of software fault
prediction, is plagued by similar problems. We have therefore conducted a
systematic review of the current literature and examined the level of
reproducibility of 56 research articles that were published between 2019 and
2022 in top-tier software engineering conferences. Our analysis revealed that
scholars are apparently largely aware of the reproducibility problem, and about
two thirds of the papers provide code for their proposed deep learning models.
However, it turned out that in the vast majority of cases, crucial elements for
reproducibility are missing, such as the code of the compared baselines, code
for data pre-processing or code for hyperparameter tuning. In these cases, it
therefore remains challenging to exactly reproduce the results in the current
research literature. Overall, our meta-analysis therefore calls for improved
research practices to ensure the reproducibility of machine-learning based
research.
- Abstract(参考訳): 過去数年間、ディープラーニングの手法はソフトウェア工学(SE)のタスクに応用され、特にソフトウェアの欠陥を自動的に予測し、ローカライズする重要なタスクに応用されてきた。
しかし、複雑な機械学習モデルが急速に普及するにつれて、研究者が論文で報告された結果を再現することがますます難しくなっている。
これは特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
応用機械学習の他の分野における再現性と進歩に関する最近の、そして非常に心配な発見を踏まえると、この研究の目的は、ソフトウェアエンジニアリングの分野、特にソフトウェア障害予測の領域において、どの程度の問題に悩まされているかを分析することである。
そこで,本研究では,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,56の論文の再現性について検討した。
論文の約3分の2は、提案された深層学習モデルのためのコードを提供している。
しかし、ほとんどのケースでは、比較されたベースラインのコード、データ前処理のコード、ハイパーパラメータチューニングのコードなど、再現性の重要な要素が欠落していることがわかった。
これらの場合、現在の研究文献で結果を正確に再現することは依然として困難である。
したがって、我々のメタ分析は、機械学習に基づく研究の再現性を確保するために研究の実践を改善することを要求する。
関連論文リスト
- State-Space Modeling in Long Sequence Processing: A Survey on Recurrence in the Transformer Era [59.279784235147254]
このサーベイは、シーケンシャルなデータ処理の反復モデルに基づく最新のアプローチの詳細な概要を提供する。
新たなイメージは、標準のバックプロパゲーション・オブ・タイムから外れた学習アルゴリズムによって構成される、新しいルートを考える余地があることを示唆している。
論文 参考訳(メタデータ) (2024-06-13T12:51:22Z) - Resilience of Deep Learning applications: a systematic literature review of analysis and hardening techniques [3.265458968159693]
このレビューは、2019年1月から2024年3月までに発行された220の科学論文に基づいている。
著者らは、研究の類似点と特異点を解釈し、強調するために分類フレームワークを採用している。
論文 参考訳(メタデータ) (2023-09-27T19:22:19Z) - On building machine learning pipelines for Android malware detection: a
procedural survey of practices, challenges and opportunities [4.8460847676785175]
スマートフォン市場のリーダーとして、Androidはマルウェア攻撃の目玉ターゲットとなっている。
特に市場保有者や研究者にとって、多数のサンプルが手動によるマルウェア検出を不可能にしている。
提案されたアプローチのいくつかは高いパフォーマンスを達成するが、急速に進化するAndroidマルウェアは、時間とともにその正確性を維持することができない。
論文 参考訳(メタデータ) (2023-06-12T13:52:28Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Deep Learning for Anomaly Detection in Log Data: A Survey [3.508620069426877]
自己学習異常検出技術は、ログデータのパターンをキャプチャし、予期しないログイベントを報告する。
この目的のためのディープラーニングニューラルネットワークが紹介されている。
ディープラーニングにはさまざまなアーキテクチャがあり、生と非構造化のログデータをエンコードするのは簡単ではない。
論文 参考訳(メタデータ) (2022-07-08T10:58:28Z) - A Survey on Machine Learning Techniques for Source Code Analysis [14.129976741300029]
ソースコード解析に応用された機械学習の領域における現在の知識を要約することを目的としている。
そこで本研究では,2002年から2021年にかけて,広範囲にわたる文献検索を行い,初等研究364点を同定した。
論文 参考訳(メタデータ) (2021-10-18T20:13:38Z) - Ten Quick Tips for Deep Learning in Biology [116.78436313026478]
機械学習は、データのパターンを認識し、予測モデリングに使用するアルゴリズムの開発と応用に関係している。
ディープラーニングは、独自の機械学習のサブフィールドになっている。
生物学的研究の文脈において、ディープラーニングは高次元の生物学的データから新しい洞察を導き出すためにますます使われてきた。
論文 参考訳(メタデータ) (2021-05-29T21:02:44Z) - Knowledge as Invariance -- History and Perspectives of
Knowledge-augmented Machine Learning [69.99522650448213]
機械学習の研究は転換点にある。
研究の関心は、高度にパラメータ化されたモデルのパフォーマンス向上から、非常に具体的なタスクへとシフトしている。
このホワイトペーパーは、機械学習研究におけるこの新興分野の紹介と議論を提供する。
論文 参考訳(メタデータ) (2020-12-21T15:07:19Z) - Automatic Feasibility Study via Data Quality Analysis for ML: A
Case-Study on Label Noise [21.491392581672198]
我々はSnoopyを紹介し、データサイエンティストと機械学習エンジニアが体系的で理論的に確立された実現可能性研究を行うのを支援することを目的としている。
我々は、基礎となるタスクの既約誤差を推定し、この問題にアプローチする。
エンド・ツー・エンドの実験では、ユーザーがかなりのラベリング時間と金銭的努力を節約できることを示す。
論文 参考訳(メタデータ) (2020-10-16T14:21:19Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。