論文の概要: On The Effectiveness of One-Class Support Vector Machine in Different Defect Prediction Scenarios
- arxiv url: http://arxiv.org/abs/2202.12074v2
- Date: Sat, 23 Mar 2024 10:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 06:12:57.500888
- Title: On The Effectiveness of One-Class Support Vector Machine in Different Defect Prediction Scenarios
- Title(参考訳): 欠陥予測シナリオの違いによる一級支援ベクトルマシンの有効性について
- Authors: Rebecca Moussa, Danielle Azar, Federica Sarro,
- Abstract要約: 欠陥予測は、ソフトウェアがエンドユーザに提供される前に障害を引き起こす可能性のあるソフトウェアコンポーネントを特定することを目的としている。
以前の研究では、ワンクラスサポートベクトルマシン(OCSVM)が、プロジェクト内欠陥予測のために2クラス分類器より優れていることが示されている。
一方のクラスからの学習が,他の2つの異なるシナリオにおいて効果的な欠陥予測モデルを生成するのに十分かどうかを検討する。
- 参考スコア(独自算出の注目度): 7.592094566354553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Defect prediction aims at identifying software components that are likely to cause faults before a software is made available to the end-user. To date, this task has been modeled as a two-class classification problem, however its nature also allows it to be formulated as a one-class classification task. Previous studies show that One-Class Support Vector Machine (OCSVM) can outperform two-class classifiers for within-project defect prediction, however it is not effective when employed at a finer granularity (i.e., commit-level defect prediction). In this paper, we further investigate whether learning from one class only is sufficient to produce effective defect prediction model in two other different scenarios (i.e., granularity), namely cross-version and cross-project defect prediction models, as well as replicate the previous work at within-project granularity for completeness. Our empirical results confirm that OCSVM performance remain low at different granularity levels, that is, it is outperformed by the two-class Random Forest (RF) classifier for both cross-version and cross-project defect prediction. While, we cannot conclude that OCSVM is the best classifier, our results still show interesting findings. While OCSVM does not outperform RF, it still achieves performance superior to its two-class counterpart (i.e., SVM) as well as other two-class classifiers studied herein. We also observe that OCSVM is more suitable for both cross-version and cross-project defect prediction, rather than for within-project defect prediction, thus suggesting it performs better with heterogeneous data. We encourage further research on one-class classifiers for defect prediction as these techniques may serve as an alternative when data about defective modules is scarce or not available.
- Abstract(参考訳): 欠陥予測は、ソフトウェアがエンドユーザに提供される前に障害を引き起こす可能性のあるソフトウェアコンポーネントを特定することを目的としている。
現在までに、このタスクは2クラス分類問題としてモデル化されているが、その性質は1クラス分類タスクとして定式化することもできる。
以前の研究では、ワンクラスサポートベクトルマシン(OCSVM)は、プロジェクト内の欠陥予測のために2クラス分類器より優れていることが示されているが、より細かい粒度(すなわちコミットレベルの欠陥予測)で使用する場合には有効ではない。
本稿では,他の2つのシナリオ (すなわち粒度) ,すなわちクロスバージョンおよびクロスプロジェクト欠陥予測モデルにおいて,あるクラスからの学習が有効な欠陥予測モデルを生成するのに十分であるか否か,また,前回の作業が完了のためにプロジェクト内粒度で再現されるかどうかを考察する。
実験の結果,OCSVMの性能は異なる粒度レベルにおいて低いままであり,クロスバージョンとクロスプロジェクトの両方の欠陥予測のための2クラスランダムフォレスト(RF)分類器よりも優れていたことが確認された。
OCSVMが最高の分類器であると結論付けることはできないが、我々の結果はいまだに興味深い結果を示している。
OCSVMはRFより優れているわけではないが、2クラスの分類器(SVM)や他の2クラスの分類器よりも性能が優れている。
また、OCSVMは、プロジェクト内欠陥予測よりも、クロスバージョンとクロスプロジェクト欠陥予測の両方に適しており、異種データの方が優れたことを示唆している。
欠陥モジュールに関するデータが不足している場合や利用できない場合、これらの手法が代替となる可能性があるため、欠陥予測のための一級分類器のさらなる研究を推奨する。
関連論文リスト
- Toward Multi-class Anomaly Detection: Exploring Class-aware Unified Model against Inter-class Interference [67.36605226797887]
統一型異常検出(MINT-AD)のためのマルチクラスインプリシトニューラル表現変換器を提案する。
マルチクラス分布を学習することにより、モデルが変換器デコーダのクラス対応クエリ埋め込みを生成する。
MINT-ADは、カテゴリと位置情報を特徴埋め込み空間に投影することができ、さらに分類と事前確率損失関数によって監督される。
論文 参考訳(メタデータ) (2024-03-21T08:08:31Z) - Characterizing the Optimal 0-1 Loss for Multi-class Classification with
a Test-time Attacker [57.49330031751386]
我々は,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃の存在下での損失に対する情報理論的下位境界を求める。
本稿では,データと敵対的制約から競合ハイパーグラフを構築する際に発生する最適0-1損失を求めるための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-21T15:17:13Z) - RF+clust for Leave-One-Problem-Out Performance Prediction [0.9281671380673306]
本稿では,LOPO(Left-one-problem-out)のパフォーマンス予測について検討する。
我々は、標準ランダムフォレスト(RF)モデル予測が性能値の重み付き平均値で校正することで改善できるかどうかを解析する。
論文 参考訳(メタデータ) (2023-01-23T16:14:59Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - The Impact of Using Regression Models to Build Defect Classifiers [13.840006058766766]
継続的欠陥数を欠陥クラスと非欠陥クラスに分類することは、よくあるプラクティスである。
両手法を用いて構築した欠陥分類器の性能と解釈を比較した。
論文 参考訳(メタデータ) (2022-02-12T22:12:55Z) - Is the Performance of My Deep Network Too Good to Be True? A Direct
Approach to Estimating the Bayes Error in Binary Classification [86.32752788233913]
分類問題において、ベイズ誤差は、最先端の性能を持つ分類器を評価するための基準として用いられる。
我々はベイズ誤差推定器を提案する。そこでは,クラスの不確かさを示すラベルの平均値のみを評価できる。
我々の柔軟なアプローチは、弱い教師付きデータであってもベイズ誤差を推定できる。
論文 参考訳(メタデータ) (2022-02-01T13:22:26Z) - Score-Based Generative Classifiers [9.063815952852783]
生成モデルは、MNISTのような単純なデータセット上で逆向きに堅牢な分類器として使われてきた。
これまでの結果は、データの可能性と分類精度のトレードオフを示唆している。
スコアに基づく生成モデルは,標準的な識別モデルと比較して,分類精度のギャップを埋めていることを示す。
論文 参考訳(メタデータ) (2021-10-01T15:05:33Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Model Rectification via Unknown Unknowns Extraction from Deployment
Samples [8.0497115494227]
本稿では, 訓練後のモデル修正を, 教師付き方式で実施することを目的とした, 汎用的なアルゴリズムフレームワークを提案する。
RTSCVは未知の未知(u.u.s)を抽出する
RTSCVは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-02-08T11:46:19Z) - Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。
モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。
Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文 参考訳(メタデータ) (2020-07-20T05:57:42Z) - An Unsupervised Learning Classifier with Competitive Error Performance [0.0]
このモデルは、選択された識別超平面上での小さなステップシフトと回転操作の漸進的な実行に基づいている。
ImageNetデータセットベンチマークのサブセットに選択された特徴抽出器と共に適用すると、エラーの確率は6.2 %になる。
この結果は、同じデータセットで事実上役に立たないことを示すk-Meansのような、一般的な教師なし学習スキームとも対照的である。
論文 参考訳(メタデータ) (2018-06-25T11:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。