論文の概要: Data Quality Antipatterns for Software Analytics
- arxiv url: http://arxiv.org/abs/2408.12560v1
- Date: Thu, 22 Aug 2024 17:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:02:30.278704
- Title: Data Quality Antipatterns for Software Analytics
- Title(参考訳): ソフトウェア分析のためのデータ品質のアンチパターン
- Authors: Aaditya Bhatia, Dayi Lin, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan,
- Abstract要約: 本研究では,ML固有のデータ品質アンチパターンの分類法を開発する。
ソフトウェア分析モデルのパフォーマンスと解釈への影響を評価する。
- 参考スコア(独自算出の注目度): 16.097163874496648
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Background: Data quality is vital in software analytics, particularly for machine learning (ML) applications like software defect prediction (SDP). Despite the widespread use of ML in software engineering, the effect of data quality antipatterns on these models remains underexplored. Objective: This study develops a taxonomy of ML-specific data quality antipatterns and assesses their impact on software analytics models' performance and interpretation. Methods: We identified eight types and 14 sub-types of ML-specific data quality antipatterns through a literature review. We conducted experiments to determine the prevalence of these antipatterns in SDP data (RQ1), assess how cleaning order affects model performance (RQ2), evaluate the impact of antipattern removal on performance (RQ3), and examine the consistency of interpretation from models built with different antipatterns (RQ4). Results: In our SDP case study, we identified nine antipatterns. Over 90% of these overlapped at both row and column levels, complicating cleaning prioritization and risking excessive data removal. The order of cleaning significantly impacts ML model performance, with neural networks being more resilient to cleaning order changes than simpler models like logistic regression. Antipatterns such as Tailed Distributions and Class Overlap show a statistically significant correlation with performance metrics when other antipatterns are cleaned. Models built with different antipatterns showed moderate consistency in interpretation results. Conclusion: The cleaning order of different antipatterns impacts ML model performance. Five antipatterns have a statistically significant correlation with model performance when others are cleaned. Additionally, model interpretation is moderately affected by different data quality antipatterns.
- Abstract(参考訳): 背景: ソフトウェア分析、特にソフトウェア欠陥予測(SDP)のような機械学習(ML)アプリケーションには、データ品質が不可欠です。
ソフトウェア工学においてMLが広く使われているにもかかわらず、これらのモデルに対するデータ品質のアンチパターンの影響は未解明のままである。
目的:本研究では,ML固有のデータ品質アンチパターンの分類を開発し,ソフトウェア分析モデルの性能と解釈に与える影響を評価する。
方法:文献レビューにより,ML固有のデータ品質アンチパターンの8つのタイプと14のサブタイプを同定した。
本研究では,SDPデータ(RQ1)におけるこれらのアンチパターンの出現率,クリーニング順序がモデル性能に与える影響(RQ2),反パターン除去の効果(RQ3),異なるアンチパターンで構築したモデルからの解釈の一貫性(RQ4)について検討した。
結果: SDP症例では9つのアンチパターンが同定された。
90%以上が行と列のレベルで重複しており、クリーニングの優先順位付けが複雑で、過剰なデータ削除のリスクがあります。
クリーニングの順序はMLモデルのパフォーマンスに大きな影響を与え、ニューラルネットワークはロジスティック回帰のような単純なモデルよりもクリーニングの順序変更に耐性がある。
Tailed DistributionsやClass Overlapといったアンチパターンは、他のアンチパターンのクリーン化時にパフォーマンス指標と統計的に有意な相関を示す。
異なるアンチパターンで構築されたモデルは解釈結果に適度な一貫性を示した。
結論: 異なるアンチパターンのクリーニング順序は、MLモデルのパフォーマンスに影響を与えます。
5つのアンチパターンは、他のパターンがクリーニングされたときのモデル性能と統計的に有意な相関を持つ。
さらに、モデル解釈は異なるデータ品質のアンチパターンの影響を受けやすい。
関連論文リスト
- Machine Learning Data Suitability and Performance Testing Using Fault
Injection Testing Framework [0.0]
本稿では,入力データ(FIUL-Data)テストフレームワークにおける望ましくない学習のためのフォールトインジェクションを提案する。
データミュータは、さまざまな障害注入の影響に対して、MLシステムの脆弱性を探索する。
本稿では, アンチセンスオリゴヌクレオチドの保持時間測定を含む分析化学データを用いて, フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-09-20T12:58:35Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Robustness and Generalization Performance of Deep Learning Models on
Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。
我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文 参考訳(メタデータ) (2023-06-13T12:43:59Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。
モデル能力,トレーニングデータ,モデル解釈について検討した。
我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T19:49:34Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Deep Learning Models for Knowledge Tracing: Review and Empirical
Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。
評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文 参考訳(メタデータ) (2021-12-30T14:19:27Z) - Data and Model Dependencies of Membership Inference Attack [13.951470844348899]
我々は、データとMLモデル特性の両方がMIAに対するML手法の脆弱性に与える影響を実証分析する。
この結果から,MIAの精度とデータセットの特性と使用中のトレーニングモデルとの関係が明らかになった。
我々は,これらのデータとモデル特性をレギュレータとして利用し,MLモデルをMIAに対して保護することを提案する。
論文 参考訳(メタデータ) (2020-02-17T09:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。