論文の概要: The Impact of Using Regression Models to Build Defect Classifiers
- arxiv url: http://arxiv.org/abs/2202.06157v1
- Date: Sat, 12 Feb 2022 22:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 17:38:29.909993
- Title: The Impact of Using Regression Models to Build Defect Classifiers
- Title(参考訳): 回帰モデルを用いた欠陥分類器の構築が与える影響
- Authors: Gopi Krishnan Rajbahadur, Shaowei Wang, Yasutaka Kamei, Ahmed E.
Hassan
- Abstract要約: 継続的欠陥数を欠陥クラスと非欠陥クラスに分類することは、よくあるプラクティスである。
両手法を用いて構築した欠陥分類器の性能と解釈を比較した。
- 参考スコア(独自算出の注目度): 13.840006058766766
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is common practice to discretize continuous defect counts into defective
and non-defective classes and use them as a target variable when building
defect classifiers (discretized classifiers). However, this discretization of
continuous defect counts leads to information loss that might affect the
performance and interpretation of defect classifiers. Another possible approach
to build defect classifiers is through the use of regression models then
discretizing the predicted defect counts into defective and non-defective
classes (regression-based classifiers).
In this paper, we compare the performance and interpretation of defect
classifiers that are built using both approaches (i.e., discretized classifiers
and regression-based classifiers) across six commonly used machine learning
classifiers (i.e., linear/logistic regression, random forest, KNN, SVM, CART,
and neural networks) and 17 datasets. We find that: i) Random forest based
classifiers outperform other classifiers (best AUC) for both classifier
building approaches; ii) In contrast to common practice, building a defect
classifier using discretized defect counts (i.e., discretized classifiers) does
not always lead to better performance.
Hence we suggest that future defect classification studies should consider
building regression-based classifiers (in particular when the defective ratio
of the modeled dataset is low). Moreover, we suggest that both approaches for
building defect classifiers should be explored, so the best-performing
classifier can be used when determining the most influential features.
- Abstract(参考訳): 継続的欠陥数を欠陥クラスと非欠陥クラスに分類し、欠陥分類器を構築する際にターゲット変数として使用するのが一般的である。
しかし、この連続的な欠陥カウントの離散化は、欠陥分類器の性能と解釈に影響を与える可能性のある情報損失につながる。
欠陥分類器を構築する別の可能なアプローチは回帰モデルを使用することで、予測された欠陥数を欠陥的および非欠陥的クラス(回帰に基づく分類器)に識別する。
本稿では,従来の機械学習分類器(線形/論理回帰,ランダムフォレスト,KNN,SVM,CART,ニューラルネットワーク)と17のデータセットの2つのアプローチ(離散化分類器と回帰ベース分類器)を用いて構築された欠陥分類器の性能と解釈を比較した。
私たちはそれを見つけました
一 双方の分類器構築アプローチにおいて、他の分類器(ベストAUC)より優れるランダムフォレストに基づく分類器
二 一般の慣行とは対照的に、離散化された欠陥数(離散化された分類器)を用いて欠陥分類器を構築することは、必ずしも優れた性能をもたらすとは限らない。
したがって、将来の欠陥分類研究は回帰に基づく分類器の構築を考慮すべきである(特にモデルデータセットの欠陥比率が低い場合)。
さらに,欠陥分類器構築のための2つのアプローチを検討すべきであるので,最も影響力のある特徴を決定する際に最適な分類器を使用できる。
関連論文リスト
- Fixed Random Classifier Rearrangement for Continual Learning [0.5439020425819]
視覚分類のシナリオでは、ニューラルネットワークは新しいタスクを学習した後、必然的に古いタスクの知識を忘れる。
我々はFixed Random Rearrangement (FRCR)という連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T09:43:58Z) - Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - Anomaly Detection using Ensemble Classification and Evidence Theory [62.997667081978825]
本稿では,アンサンブル分類とエビデンス理論を用いた新しい検出手法を提案する。
固体アンサンブル分類器を構築するためのプール選択戦略が提示される。
我々は異常検出手法の不確実性を利用する。
論文 参考訳(メタデータ) (2022-12-23T00:50:41Z) - Generative Robust Classification [3.4773470589069477]
相対的に頑健な差別的分類(ソフトマックス)の訓練は、頑健な分類に対する主要なアプローチである。
本稿では, 対人訓練(AT)に基づく生成モデルについて検討する。
アプローチの堅牢性を向上するために、高度なデータ拡張を適用するのは簡単です。
論文 参考訳(メタデータ) (2022-12-14T15:33:11Z) - On The Effectiveness of One-Class Support Vector Machine in Different Defect Prediction Scenarios [7.592094566354553]
欠陥予測は、ソフトウェアがエンドユーザに提供される前に障害を引き起こす可能性のあるソフトウェアコンポーネントを特定することを目的としている。
以前の研究では、ワンクラスサポートベクトルマシン(OCSVM)が、プロジェクト内欠陥予測のために2クラス分類器より優れていることが示されている。
一方のクラスからの学習が,他の2つの異なるシナリオにおいて効果的な欠陥予測モデルを生成するのに十分かどうかを検討する。
論文 参考訳(メタデータ) (2022-02-24T12:57:14Z) - Is the Performance of My Deep Network Too Good to Be True? A Direct
Approach to Estimating the Bayes Error in Binary Classification [86.32752788233913]
分類問題において、ベイズ誤差は、最先端の性能を持つ分類器を評価するための基準として用いられる。
我々はベイズ誤差推定器を提案する。そこでは,クラスの不確かさを示すラベルの平均値のみを評価できる。
我々の柔軟なアプローチは、弱い教師付きデータであってもベイズ誤差を推定できる。
論文 参考訳(メタデータ) (2022-02-01T13:22:26Z) - Robustifying Binary Classification to Adversarial Perturbation [45.347651499585055]
本稿では,対向摂動を伴う二分分類の問題について考察する。
データを操作する際の敵の力を考慮に入れたマックスマージン分類器に一般化を導入する。
損失関数に関するいくつかの軽微な仮定の下では、勾配降下がその方向のRM分類器に収束することを理論的に示す。
論文 参考訳(メタデータ) (2020-10-29T07:20:37Z) - Predicting Classification Accuracy When Adding New Unobserved Classes [8.325327265120283]
そこで本研究では,より大規模で未観測のクラスに対して,期待する精度を推定するために,分類器の性能をどのように利用することができるかを検討する。
ニューラルネットワークに基づく頑健なアルゴリズム "CleaneX" を定式化し,任意のサイズのクラスに対して,そのような分類器の精度を推定する。
論文 参考訳(メタデータ) (2020-10-28T14:37:25Z) - Classification with Rejection Based on Cost-sensitive Classification [83.50402803131412]
学習のアンサンブルによる拒絶を用いた新しい分類法を提案する。
実験により, クリーン, ノイズ, 正の未ラベル分類における提案手法の有用性が示された。
論文 参考訳(メタデータ) (2020-10-22T14:05:05Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。