Fugu-MT 論文翻訳(概要): Data Quality Antipatterns for Software Analytics

論文の概要: Data Quality Antipatterns for Software Analytics

arxiv url: http://arxiv.org/abs/2408.12560v1
Date: Thu, 22 Aug 2024 17:21:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 13:02:30.278704
Title: Data Quality Antipatterns for Software Analytics
Title（参考訳）: ソフトウェア分析のためのデータ品質のアンチパターン
Authors: Aaditya Bhatia, Dayi Lin, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan,
Abstract要約: 本研究では,ML固有のデータ品質アンチパターンの分類法を開発する。ソフトウェア分析モデルのパフォーマンスと解釈への影響を評価する。
参考スコア（独自算出の注目度）: 16.097163874496648
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Background: Data quality is vital in software analytics, particularly for machine learning (ML) applications like software defect prediction (SDP). Despite the widespread use of ML in software engineering, the effect of data quality antipatterns on these models remains underexplored. Objective: This study develops a taxonomy of ML-specific data quality antipatterns and assesses their impact on software analytics models' performance and interpretation. Methods: We identified eight types and 14 sub-types of ML-specific data quality antipatterns through a literature review. We conducted experiments to determine the prevalence of these antipatterns in SDP data (RQ1), assess how cleaning order affects model performance (RQ2), evaluate the impact of antipattern removal on performance (RQ3), and examine the consistency of interpretation from models built with different antipatterns (RQ4). Results: In our SDP case study, we identified nine antipatterns. Over 90% of these overlapped at both row and column levels, complicating cleaning prioritization and risking excessive data removal. The order of cleaning significantly impacts ML model performance, with neural networks being more resilient to cleaning order changes than simpler models like logistic regression. Antipatterns such as Tailed Distributions and Class Overlap show a statistically significant correlation with performance metrics when other antipatterns are cleaned. Models built with different antipatterns showed moderate consistency in interpretation results. Conclusion: The cleaning order of different antipatterns impacts ML model performance. Five antipatterns have a statistically significant correlation with model performance when others are cleaned. Additionally, model interpretation is moderately affected by different data quality antipatterns.
Abstract（参考訳）: 背景: ソフトウェア分析、特にソフトウェア欠陥予測(SDP)のような機械学習(ML)アプリケーションには、データ品質が不可欠です。ソフトウェア工学においてMLが広く使われているにもかかわらず、これらのモデルに対するデータ品質のアンチパターンの影響は未解明のままである。目的:本研究では,ML固有のデータ品質アンチパターンの分類を開発し,ソフトウェア分析モデルの性能と解釈に与える影響を評価する。方法:文献レビューにより,ML固有のデータ品質アンチパターンの8つのタイプと14のサブタイプを同定した。本研究では,SDPデータ(RQ1)におけるこれらのアンチパターンの出現率,クリーニング順序がモデル性能に与える影響(RQ2),反パターン除去の効果(RQ3),異なるアンチパターンで構築したモデルからの解釈の一貫性(RQ4)について検討した。結果: SDP症例では9つのアンチパターンが同定された。 90%以上が行と列のレベルで重複しており、クリーニングの優先順位付けが複雑で、過剰なデータ削除のリスクがあります。クリーニングの順序はMLモデルのパフォーマンスに大きな影響を与え、ニューラルネットワークはロジスティック回帰のような単純なモデルよりもクリーニングの順序変更に耐性がある。 Tailed DistributionsやClass Overlapといったアンチパターンは、他のアンチパターンのクリーン化時にパフォーマンス指標と統計的に有意な相関を示す。異なるアンチパターンで構築されたモデルは解釈結果に適度な一貫性を示した。結論: 異なるアンチパターンのクリーニング順序は、MLモデルのパフォーマンスに影響を与えます。 5つのアンチパターンは、他のパターンがクリーニングされたときのモデル性能と統計的に有意な相関を持つ。さらに、モデル解釈は異なるデータ品質のアンチパターンの影響を受けやすい。

関連論文リスト

Sensitivity Analysis of Image Classification Models using Generalized Polynomial Chaos [0.0]
本研究では,画像分類モデルの感度について検討した。本稿では,確率変数を用いた入力の分布領域シフトをモデル化し,モデル出力への影響を定量化する。
論文参考訳（メタデータ） (2025-06-23T15:22:31Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Machine Learning Data Suitability and Performance Testing Using Fault Injection Testing Framework [0.0]
本稿では,入力データ(FIUL-Data)テストフレームワークにおける望ましくない学習のためのフォールトインジェクションを提案する。データミュータは、さまざまな障害注入の影響に対して、MLシステムの脆弱性を探索する。本稿では, アンチセンスオリゴヌクレオチドの保持時間測定を含む分析化学データを用いて, フレームワークの評価を行った。
論文参考訳（メタデータ） (2023-09-20T12:58:35Z)
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文参考訳（メタデータ） (2023-08-03T15:34:01Z)
Robustness and Generalization Performance of Deep Learning Models on Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文参考訳（メタデータ） (2023-06-13T12:43:59Z)
Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文参考訳（メタデータ） (2023-06-03T20:12:27Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
A prediction and behavioural analysis of machine learning methods for modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。 MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文参考訳（メタデータ） (2023-01-11T11:10:32Z)
An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。モデル能力,トレーニングデータ,モデル解釈について検討した。我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文参考訳（メタデータ） (2022-12-15T19:49:34Z)
How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文参考訳（メタデータ） (2022-06-17T16:18:28Z)
Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文参考訳（メタデータ） (2022-04-17T15:55:18Z)
Deep Learning Models for Knowledge Tracing: Review and Empirical Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文参考訳（メタデータ） (2021-12-30T14:19:27Z)
Data and Model Dependencies of Membership Inference Attack [13.951470844348899]
我々は、データとMLモデル特性の両方がMIAに対するML手法の脆弱性に与える影響を実証分析する。この結果から,MIAの精度とデータセットの特性と使用中のトレーニングモデルとの関係が明らかになった。我々は,これらのデータとモデル特性をレギュレータとして利用し,MLモデルをMIAに対して保護することを提案する。
論文参考訳（メタデータ） (2020-02-17T09:35:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。