論文の概要: A Comparison of Similarity Based Instance Selection Methods for Cross
Project Defect Prediction
- arxiv url: http://arxiv.org/abs/2104.01024v1
- Date: Fri, 2 Apr 2021 12:50:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 13:59:44.399997
- Title: A Comparison of Similarity Based Instance Selection Methods for Cross
Project Defect Prediction
- Title(参考訳): クロスプロジェクト欠陥予測のための類似性に基づくインスタンス選択法の比較
- Authors: Seyedrebvar Hosseini and Burak Turhan
- Abstract要約: LSH(Locality Sensitive Hashing)とベンチマークインスタンス選択方法NN-FilterとGISを比較します。
LSHとGISは精度以上のリコールを好む。
精度向上のため、3つの異なるグループしか検出されない。
- 参考スコア(独自算出の注目度): 1.066048003460524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: Previous studies have shown that training data instance selection
based on nearest neighborhood (NN) information can lead to better performance
in cross project defect prediction (CPDP) by reducing heterogeneity in training
datasets. However, neighborhood calculation is computationally expensive and
approximate methods such as Locality Sensitive Hashing (LSH) can be as
effective as exact methods. Aim: We aim at comparing instance selection methods
for CPDP, namely LSH, NN-filter, and Genetic Instance Selection (GIS). Method:
We conduct experiments with five base learners, optimizing their hyper
parameters, on 13 datasets from PROMISE repository in order to compare the
performance of LSH with benchmark instance selection methods NN-Filter and GIS.
Results: The statistical tests show six distinct groups for F-measure
performance. The top two group contains only LSH and GIS benchmarks whereas the
bottom two groups contain only NN-Filter variants. LSH and GIS favor recall
more than precision. In fact, for precision performance only three
significantly distinct groups are detected by the tests where the top group is
comprised of NN-Filter variants only. Recall wise, 16 different groups are
identified where the top three groups contain only LSH methods, four of the
next six are GIS only and the bottom five contain only NN-Filter. Finally,
NN-Filter benchmarks never outperform the LSH counterparts with the same base
learner, tuned or non-tuned. Further, they never even belong to the same rank
group, meaning that LSH is always significantly better than NN-Filter with the
same learner and settings. Conclusions: The increase in performance and the
decrease in computational overhead and runtime make LSH a promising approach.
However, the performance of LSH is based on high recall and in environments
where precision is considered more important NN-Filter should be considered.
- Abstract(参考訳): コンテキスト: これまでの研究では、近辺(NN)情報に基づくトレーニングデータインスタンスの選択が、トレーニングデータセットの不均一性を減少させることで、プロジェクト横断欠陥予測(CPDP)のパフォーマンス向上につながることが示されている。
しかし、近傍計算は計算コストが高く、局所性センシティブハッシュ (lsh) のような近似手法は、厳密な方法と同じくらい効果的である。
Aim: CPDPのインスタンス選択方法,すなわちLSH,NNフィルタ,遺伝的インスタンス選択(GIS)を比較することを目的としている。
方法: NN-Filter と GIS のベンチマークインスタンス選択手法と LSH の性能を比較するため,PROMISE リポジトリの 13 個のデータセット上で 5 つの基本学習者による実験を行い,そのパラメータを最適化した。
結果: 統計的検査の結果, F測定成績は6群であった。
上位2グループはLSHとGISベンチマークのみを含むが、下位2グループはNN-Filter変種のみを含む。
LSHとGISは精度以上のリコールを好む。
実際、精度向上のためには、トップグループがnnフィルターの変種のみからなるテストによって、明らかに異なる3つのグループしか検出されない。
16の異なるグループが識別され、上位3つのグループは LSH メソッドのみを含み、次の6つのグループのうち4つは GIS のみであり、下位5つは NN-Filter のみを含む。
最後に、NN-FilterベンチマークはLSHベンチマークを、同じベースラーナー、チューニング、あるいは非チューニングで上回ることはない。
さらに、同じランクグループに属しないため、LSHは常に同じ学習者と設定を持つNN-Filterよりもはるかに優れている。
結論: パフォーマンスの向上と計算オーバーヘッドの減少により、LSHは有望なアプローチになります。
しかし、LSHの性能は高いリコールに基づいており、精度がNN-Filterよりも重要であると考えられる環境では考慮すべきである。
関連論文リスト
- Scaling LLM Inference with Optimized Sample Compute Allocation [56.524278187351925]
我々は、異なる推論構成の最適な混合を見つけるアルゴリズムであるOSCAを提案する。
実験の結果,学習した混合アロケーションでは,最高の単一構成よりも精度がよいことがわかった。
OSCAはシングルターンタスク以外のエージェント処理にも有効であることが示されており、デフォルト設定よりも3倍少ない計算でSWE-Benchの精度が向上している。
論文 参考訳(メタデータ) (2024-10-29T19:17:55Z) - A Novel Pseudo Nearest Neighbor Classification Method Using Local Harmonic Mean Distance [0.0]
本稿では, LMPHNNと呼ばれる新しいKNN分類手法を紹介する。
LMPHNNはLMPNNルールとHMDに基づいて分類性能を向上させる。
平均精度は97%で、他の手法を14%上回る。
論文 参考訳(メタデータ) (2024-05-10T04:13:07Z) - P3DC-Shot: Prior-Driven Discrete Data Calibration for Nearest-Neighbor
Few-Shot Classification [6.61282019235397]
P3DC-Shotは、事前駆動型データキャリブレーションによって強化された、隣り合う近距離数ショット分類法である。
それぞれのベースクラスを表すプロトタイプを先行として扱い、異なるベースプロトタイプとの類似性に基づいて各サポートデータを校正する。
論文 参考訳(メタデータ) (2023-01-02T16:26:16Z) - Classifier Transfer with Data Selection Strategies for Online Support
Vector Machine Classification with Class Imbalance [1.2599533416395767]
我々は、格納されたトレーニングデータのサイズを制限するデータ選択戦略に焦点を当てる。
データ選択基準の正しい組み合わせを用いることで、分類器を適応させ、性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-08-10T02:36:20Z) - Learning to Hash Naturally Sorts [84.90210592082829]
そこで我々はNaturely-Sorted Hashing (NSH)を導入し,最終結果のソートによる深層ハッシュモデルのトレーニングを行った。
NSHはサンプルのハッシュコードのハミング距離をソートし、それに従って自己教師付きトレーニングのための潜伏した表現を収集する。
Sorted Noise-Contrastive Estimation (SortedNCE) の新たな損失について述べる。
論文 参考訳(メタデータ) (2022-01-31T16:19:02Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z) - SMOTified-GAN for class imbalanced pattern classification problems [0.41998444721319217]
本稿では,SMOTEとGANの相乗効果を持つ2相オーバーサンプリング手法を提案する。
実験の結果,様々なベンチマークデータセットにおいて,マイノリティクラス(es)のサンプル品質が向上していることが証明された。
論文 参考訳(メタデータ) (2021-08-06T06:14:05Z) - Collaborative Training between Region Proposal Localization and
Classification for Domain Adaptive Object Detection [121.28769542994664]
オブジェクト検出のためのドメイン適応は、ラベル付きデータセットからラベル付きデータセットへの検出を適応させようとする。
本稿では,地域提案ネットワーク (RPN) と地域提案分類器 (RPC) が,大きなドメインギャップに直面した場合の転送可能性が大きく異なることを初めて明らかにする。
論文 参考訳(メタデータ) (2020-09-17T07:39:52Z) - Unsupervised Feature Learning by Cross-Level Instance-Group
Discrimination [68.83098015578874]
我々は、インスタンスグループ化ではなく、クロスレベルな識別によって、インスタンス間の類似性を対照的な学習に統合する。
CLDは、教師なし学習を、自然データや現実世界のアプリケーションに効果的に近づける。
セルフスーパービジョン、セミスーパービジョン、トランスファーラーニングベンチマークに関する新たな最先端技術は、報告されたすべてのパフォーマンスでMoCo v2とSimCLRを上回っている。
論文 参考訳(メタデータ) (2020-08-09T21:13:13Z) - Learning Sparse Filters in Deep Convolutional Neural Networks with a
l1/l2 Pseudo-Norm [5.3791844634527495]
ディープニューラルネットワーク(DNN)は、多くのタスクで効率的であることが証明されているが、高いメモリと計算コストが伴う。
近年の研究では、それらの構造は性能を損なうことなくよりコンパクトにすることができることが示されている。
フィルタ係数に定義された比 l1/l2 の擬ノルムに基づいて, 疎度誘導正規化項を提案する。
論文 参考訳(メタデータ) (2020-07-20T11:56:12Z) - OSLNet: Deep Small-Sample Classification with an Orthogonal Softmax
Layer [77.90012156266324]
本稿では,ニューラルネットワークのサブスペースを見つけることを目的としている。
そこで本研究では,Orthogonal Softmax Layer (OSL) を提案する。
実験結果から,提案OSLは4つの小サンプルベンチマークデータセットとの比較に用いた手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-04-20T02:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。