論文の概要: When Data Quality Issues Collide: A Large-Scale Empirical Study of Co-Occurring Data Quality Issues in Software Defect Prediction
- arxiv url: http://arxiv.org/abs/2512.17460v1
- Date: Fri, 19 Dec 2025 11:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.358102
- Title: When Data Quality Issues Collide: A Large-Scale Empirical Study of Co-Occurring Data Quality Issues in Software Defect Prediction
- Title(参考訳): データ品質の問題が衝突した場合: ソフトウェア欠陥予測におけるデータ品質問題の共同発生に関する大規模実証研究
- Authors: Emmanuel Charleson Dapaah, Jens Grabowski,
- Abstract要約: 本稿では,SDPにおける5つのデータ品質問題を同時に検討した最初の大規模実験分析について述べる。
最も頻度の低い問題(属性ノイズ)でさえ、データセットの93%以上に他の問題とともに現れる。
クラスオーバーラップで0.20、不均衡で0.65-0.70、無関係で0.94と、ほとんどのモデルが劣化し始める。
- 参考スコア(独自算出の注目度): 0.3867363075280543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software Defect Prediction (SDP) models are central to proactive software quality assurance, yet their effectiveness is often constrained by the quality of available datasets. Prior research has typically examined single issues such as class imbalance or feature irrelevance in isolation, overlooking that real-world data problems frequently co-occur and interact. This study presents, to our knowledge, the first large-scale empirical analysis in SDP that simultaneously examines five co-occurring data quality issues (class imbalance, class overlap, irrelevant features, attribute noise, and outliers) across 374 datasets and five classifiers. We employ Explainable Boosting Machines together with stratified interaction analysis to quantify both direct and conditional effects under default hyperparameter settings, reflecting practical baseline usage. Our results show that co-occurrence is nearly universal: even the least frequent issue (attribute noise) appears alongside others in more than 93% of datasets. Irrelevant features and imbalance are nearly ubiquitous, while class overlap is the most consistently harmful issue. We identify stable tipping points around 0.20 for class overlap, 0.65-0.70 for imbalance, and 0.94 for irrelevance, beyond which most models begin to degrade. We also uncover counterintuitive patterns, such as outliers improving performance when irrelevant features are low, underscoring the importance of context-aware evaluation. Finally, we expose a performance-robustness trade-off: no single learner dominates under all conditions. By jointly analyzing prevalence, co-occurrence, thresholds, and conditional effects, our study directly addresses a persistent gap in SDP research. Hence, moving beyond isolated analyses to provide a holistic, data-aware understanding of how quality issues shape model performance in real-world settings.
- Abstract(参考訳): ソフトウェア欠陥予測(SDP)モデルは、プロアクティブなソフトウェア品質保証の中心であるが、その有効性は利用可能なデータセットの品質に制約されることが多い。
従来の研究では、クラス不均衡や非独立性といった単一問題を調べ、実世界のデータ問題が頻繁に共起して相互作用しているのを見落としていた。
本研究は,SDPにおいて,374データセットと5つの分類器にまたがる5つの共起データ品質問題(クラス不均衡,クラス重複,非関連特徴,属性ノイズ,アウトリーチ)を同時に検討した最初の大規模実験分析である。
我々は,説明可能なブースティングマシンと階層化相互作用解析を併用して,デフォルトのハイパーパラメータ設定下での直接効果と条件効果の両方を定量化し,実用的なベースライン利用を反映する。
最も頻度の低い問題(属性ノイズ)でさえ、データセットの93%以上で他の問題と一緒に現れる。
関連性のない特徴と不均衡は、ほとんどどこにでもあるが、クラスオーバーラップは、最も一貫して有害な問題である。
クラスオーバーラップで0.20、不均衡で0.65-0.70、無関係で0.94と、ほとんどのモデルが劣化し始める。
また,無関係な特徴が低い場合の性能向上などの直感的パターンも発見し,文脈認識評価の重要性を浮き彫りにした。
最後に,すべての条件下では,一人の学習者が優位に立たないという,パフォーマンスの損なうトレードオフを明らかにする。
本研究は,SDP研究における有病率,共起性,しきい値,条件の影響を共同で解析することにより,永続的なギャップを解消する。
したがって、分離された分析を超えて、実際の環境での品質問題がどのようにモデルパフォーマンスを形作るのかを、包括的でデータ対応の理解を提供する。
関連論文リスト
- Robustness of Probabilistic Models to Low-Quality Data: A Multi-Perspective Analysis [23.834741751854448]
低品質データの効果に関する体系的な比較研究は、現代の確率モデルにまたがる頑健性のスペクトルを明らかにしている。
トークン予測からシーケンス・ツー・シーケンス・タスクに至るまで,自動回帰言語モデルは極めてレジリエンスであることがわかった。
同じレベルのデータ破損の下で、クラス条件拡散モデルは破滅的に劣化する。
論文 参考訳(メタデータ) (2025-12-11T02:10:41Z) - Conformal-in-the-Loop for Learning with Imbalanced Noisy Data [5.69777817429044]
大規模なデータセットでは、クラス不均衡とラベルノイズが広まっています。
機械学習の研究の多くは、よくラベル付けされたバランスの取れたデータを前提としている。
コンフォーマル・イン・ザ・ループ(Conformal-in-the-Loop, CitL)は,コンフォーマルな予測に基づく手法を用いて,両課題に対処する新しいトレーニングフレームワークである。
論文 参考訳(メタデータ) (2024-11-04T17:09:58Z) - SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems [39.675787338941184]
本稿では,データ不均衡問題に対処する合成データの可能性について検討する。
具体的には、SynAuGと呼ばれる手法は、学習データの不均衡分布を等化するために合成データを利用する。
実データと合成データの間には領域ギャップが存在するが,SynAuGを用いたトレーニングと,いくつかの実データを用いた微調整により,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-02T07:59:25Z) - From Contextual Data to Newsvendor Decisions: On the Actual Performance of Data-Driven Algorithms [8.89658755359509]
本研究では,過去データの価値・品質・量が,文脈的ニューズベンダーの問題を分析することによって,パフォーマンスに与える影響について検討する。
データ駆動型アルゴリズムの性能は、文脈に依存した最悪の最悪の後悔という概念を用いて分析する。
論文 参考訳(メタデータ) (2023-02-16T17:03:39Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - On Disentangled Representations Learned From Correlated Data [59.41587388303554]
相関データに対する最も顕著な絡み合うアプローチの挙動を解析することにより、現実のシナリオにギャップを埋める。
本研究では,データセットの体系的相関が学習され,潜在表現に反映されていることを示す。
また、トレーニング中の弱い監督や、少数のラベルで事前訓練されたモデルを修正することで、これらの潜伏相関を解消する方法を実証する。
論文 参考訳(メタデータ) (2020-06-14T12:47:34Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。