論文の概要: Towards Understanding the Impact of Data Bugs on Deep Learning Models in Software Engineering
- arxiv url: http://arxiv.org/abs/2411.12137v1
- Date: Tue, 19 Nov 2024 00:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:45.446412
- Title: Towards Understanding the Impact of Data Bugs on Deep Learning Models in Software Engineering
- Title(参考訳): ソフトウェア工学における深層学習モデルに対するデータバグの影響の理解に向けて
- Authors: Mehil B Shah, Mohammad Masudur Rahman, Foutse Khomh,
- Abstract要約: ディープラーニング(DL)システムは、トレーニングデータを含む多くのソースからのバグがちである。
既存の文献では、トレーニングデータのバグが非常に多いことが示唆されている。
本稿では,コードベース,テキストベース,メトリックベースの3種類のデータについて検討する。
- 参考スコア(独自算出の注目度): 13.17302533571231
- License:
- Abstract: Deep learning (DL) techniques have achieved significant success in various software engineering tasks (e.g., code completion by Copilot). However, DL systems are prone to bugs from many sources, including training data. Existing literature suggests that bugs in training data are highly prevalent, but little research has focused on understanding their impacts on the models used in software engineering tasks. In this paper, we address this research gap through a comprehensive empirical investigation focused on three types of data prevalent in software engineering tasks: code-based, text-based, and metric-based. Using state-of-the-art baselines, we compare the models trained on clean datasets with those trained on datasets with quality issues and without proper preprocessing. By analysing the gradients, weights, and biases from neural networks under training, we identify the symptoms of data quality and preprocessing issues. Our analysis reveals that quality issues in code data cause biased learning and gradient instability, whereas problems in text data lead to overfitting and poor generalisation of models. On the other hand, quality issues in metric data result in exploding gradients and model overfitting, and inadequate preprocessing exacerbates these effects across all three data types. Finally, we demonstrate the validity and generalizability of our findings using six new datasets. Our research provides a better understanding of the impact and symptoms of data bugs in software engineering datasets. Practitioners and researchers can leverage these findings to develop better monitoring systems and data-cleaning methods to help detect and resolve data bugs in deep learning systems.
- Abstract(参考訳): ディープラーニング(DL)技術は,さまざまなソフトウェアエンジニアリングタスク(Copilotによるコード補完など)で大きな成功を収めています。
しかし、DLシステムは、トレーニングデータを含む多くのソースからのバグが多い。
既存の文献によると、トレーニングデータのバグは非常に多いが、ソフトウェアエンジニアリングタスクで使用されるモデルに対する彼らの影響を理解することに注力する研究はほとんどない。
本稿では,コードベース,テキストベース,メトリックベースという,ソフトウェア工学のタスクで一般的な3種類のデータに着目した総合的研究を通じて,この研究ギャップに対処する。
最先端のベースラインを使用して、クリーンデータセットでトレーニングされたモデルと、品質上の問題のあるデータセットでトレーニングされたモデルを比較し、適切な前処理を行わない。
トレーニング中のニューラルネットワークの勾配、重み、バイアスを分析して、データ品質や前処理の問題の症状を特定する。
分析の結果,コードデータの質の問題が学習バイアスや勾配不安定の原因となっているのに対して,テキストデータの問題は過度に適合し,モデルの一般化が不十分であることがわかった。
一方、メトリックデータの品質問題は、爆発的な勾配とモデルオーバーフィッティングをもたらし、不適切な事前処理によってこれら3つのデータ型すべてにまたがる効果が悪化する。
最後に,6つの新しいデータセットを用いて,その妥当性と一般化性を示す。
私たちの研究は、ソフトウェアエンジニアリングデータセットにおけるデータバグの影響と症状をよりよく理解します。
専門家や研究者は、これらの発見を利用して、ディープラーニングシステムのデータバグを検出して解決する、より良い監視システムとデータクリーニング方法を開発することができる。
関連論文リスト
- AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - An Effective Data-Driven Approach for Localizing Deep Learning Faults [20.33411443073181]
問題パターンの学習にモデル機能を活用する新しいデータ駆動手法を提案する。
本手法は,手作業によるマッピングを必要とせず,バグ症状を根本原因に自動的に関連付ける。
以上の結果から,本手法は様々なバグタイプを効果的に検出・診断できることが示唆された。
論文 参考訳(メタデータ) (2023-07-18T03:28:39Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Graph Neural Networks with Trainable Adjacency Matrices for Fault
Diagnosis on Multivariate Sensor Data [69.25738064847175]
各センサの信号の挙動を別々に検討し,相互の相関関係と隠れ関係を考慮する必要がある。
グラフノードは、異なるセンサーからのデータとして表現することができ、エッジは、これらのデータの影響を互いに表示することができる。
グラフニューラルネットワークのトレーニング中にグラフを構築する方法が提案されている。これにより、センサー間の依存関係が事前に分かっていないデータ上でモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-20T11:03:21Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - Data Collection and Quality Challenges in Deep Learning: A Data-Centric
AI Perspective [16.480530590466472]
データ中心のAIプラクティスが主流になりつつある。
現実世界の多くのデータセットは小さく、汚く、偏りがあり、毒まみれである。
データ品質については、データ検証とデータクリーニング技術について研究する。
論文 参考訳(メタデータ) (2021-12-13T03:57:36Z) - Data Curation and Quality Assurance for Machine Learning-based Cyber
Intrusion Detection [1.0276024900942873]
本稿では、まず、既存の機械学習ベースの侵入検知システムと、これらのシステム構築に使用されるデータセットを要約する。
実験結果から,BERT と GPT がすべてのデータセット上で HIDS に最適なアルゴリズムであることが示唆された。
そこで本論文では, HIDSデータセットが持つべき最高の特性を推定するために, 提案した品質次元に基づいて, 11データセットのデータ品質を評価する。
論文 参考訳(メタデータ) (2021-05-20T21:31:46Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Automatic Feasibility Study via Data Quality Analysis for ML: A
Case-Study on Label Noise [21.491392581672198]
我々はSnoopyを紹介し、データサイエンティストと機械学習エンジニアが体系的で理論的に確立された実現可能性研究を行うのを支援することを目的としている。
我々は、基礎となるタスクの既約誤差を推定し、この問題にアプローチする。
エンド・ツー・エンドの実験では、ユーザーがかなりのラベリング時間と金銭的努力を節約できることを示す。
論文 参考訳(メタデータ) (2020-10-16T14:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。