論文の概要: Deep Incremental Learning of Imbalanced Data for Just-In-Time Software
Defect Prediction
- arxiv url: http://arxiv.org/abs/2310.12289v1
- Date: Wed, 18 Oct 2023 19:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-21 14:49:35.247662
- Title: Deep Incremental Learning of Imbalanced Data for Just-In-Time Software
Defect Prediction
- Title(参考訳): ジャストインタイムソフトウェア欠陥予測のための不均衡データの深いインクリメンタル学習
- Authors: Yunhua Zhao, Hui Chen
- Abstract要約: この研究は、Just-In-Time Software Defect Prediction (JIT-SDP)モデルに関する3つの観測から生まれた。
まず,JIT-SDP問題を分類問題として扱う。
第二に、JIT-SDP 以前の研究では、クラスバランス処理がソフトウェア変更セットデータの基盤となる特性を変えるとは考えていない。
- 参考スコア(独自算出の注目度): 3.2022080692044352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work stems from three observations on prior Just-In-Time Software Defect
Prediction (JIT-SDP) models. First, prior studies treat the JIT-SDP problem
solely as a classification problem. Second, prior JIT-SDP studies do not
consider that class balancing processing may change the underlying
characteristics of software changeset data. Third, only a single source of
concept drift, the class imbalance evolution is addressed in prior JIT-SDP
incremental learning models.
We propose an incremental learning framework called CPI-JIT for JIT-SDP.
First, in addition to a classification modeling component, the framework
includes a time-series forecast modeling component in order to learn temporal
interdependent relationship in the changesets. Second, the framework features a
purposefully designed over-sampling balancing technique based on SMOTE and
Principal Curves called SMOTE-PC. SMOTE-PC preserves the underlying
distribution of software changeset data.
In this framework, we propose an incremental deep neural network model called
DeepICP. Via an evaluation using \numprojs software projects, we show that: 1)
SMOTE-PC improves the model's predictive performance; 2) to some software
projects it can be beneficial for defect prediction to harness temporal
interdependent relationship of software changesets; and 3) principal curves
summarize the underlying distribution of changeset data and reveals a new
source of concept drift that the DeepICP model is proposed to adapt to.
- Abstract(参考訳): この研究は、Just-In-Time Software Defect Prediction (JIT-SDP)モデルに関する3つの観測から生まれた。
まず,JIT-SDP問題を分類問題として扱う。
第二に、JIT-SDP 以前の研究では、クラスバランス処理がソフトウェア変更セットデータの基盤となる特性を変えるとは考えていない。
第三に、単一の概念ドリフトのみ、クラス不均衡進化は、以前のjit-sdpインクリメンタル学習モデルで対処される。
JIT-SDPのためのCPI-JITと呼ばれる漸進的な学習フレームワークを提案する。
まず、分類モデリングコンポーネントに加えて、このフレームワークは、変更セットの時間的相互依存関係を学習するために、時系列予測モデリングコンポーネントを含む。
第二に、このフレームワークはSMOTEとSMOTE-PCと呼ばれるPrincipal Curvesに基づく、目的的に設計されたオーバーサンプリングバランス技術を備えている。
SMOTE-PCはソフトウェアチェンジセットデータの基本的な分布を保存する。
本稿では,DeepICPと呼ばれるインクリメンタルディープニューラルネットワークモデルを提案する。
numprojsソフトウェアプロジェクトを用いた評価では、次のように示します。
1) SMOTE-PC はモデルの予測性能を改善する。
2)一部のソフトウェアプロジェクトには,ソフトウェア変更セットの時間的相互依存関係を利用する欠陥予測が有用である。
3)主曲線は変更点データの分布を要約し,DeepICPモデルが適応するために提案される新たな概念ドリフトの源を明らかにする。
関連論文リスト
- Feature Importance in the Context of Traditional and Just-In-Time Software Defect Prediction Models [5.1868909177638125]
本研究では,Apache Camelプロジェクトの公開データセットから,従来型およびJust-In-Timeアプローチを取り入れた欠陥予測モデルを開発した。
機械学習アルゴリズムと比較して,これらのデータセットに多層深層学習アルゴリズムを適用した。
深層学習アルゴリズムは80%と86%の精度を達成し, 従来型とジャスト・イン・タイムの欠陥予測では, それぞれ66%と78%の受信演算子曲線(AUC)のスコアが得られた。
論文 参考訳(メタデータ) (2024-11-07T22:49:39Z) - Online model error correction with neural networks: application to the
Integrated Forecasting System [0.27930367518472443]
ニューラルネットワークを用いた中レージ気象予報センターのモデル誤差補正手法を開発した。
ネットワークは、運用分析と分析インクリメントの大規模なデータセットを使用して、オフラインで事前トレーニングされている。
その後、データ同化や予測実験に使用されるように、オブジェクト指向予測システム(OOPS)内のIFSに統合される。
論文 参考訳(メタデータ) (2024-03-06T13:36:31Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - A study on the impact of pre-trained model on Just-In-Time defect
prediction [10.205110163570502]
RoBERTaJIT、CodeBERTJIT、BARTJIT、PLBARTJIT、GPT2JIT、CodeGPTJITの6つのモデルを構築します。
本稿では,コミットコードとコミットメッセージを入力として使用する際のモデルの性能と,トレーニング効率とモデル分布の関係について検討する。
論文 参考訳(メタデータ) (2023-09-05T15:34:22Z) - Human-in-the-loop online just-in-time software defect prediction [6.35776510153759]
我々は,SQAスタッフからのフィードバックを統合して予測プロセスを強化するHuman-In-The-Loop (HITL) O-JIT-SDPを提案する。
また,k-fold分散ブートストラップ法とWilcoxon符号ランク試験を併用した性能評価フレームワークを提案する。
これらの進歩は、産業アプリケーションにおけるO-JIT-SDPの価値を大幅に向上させる可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-25T23:40:08Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Online learning techniques for prediction of temporal tabular datasets
with regime changes [0.0]
時間パネルデータセットの予測をランキングするモジュール型機械学習パイプラインを提案する。
パイプラインのモジュラリティにより、GBDT(Gradient Boosting Decision Tree)やニューラルネットワークなど、さまざまなモデルの使用が可能になる。
モデルの再トレーニングを必要としないオンライン学習技術は、予測後の結果を高めるために使用することができる。
論文 参考訳(メタデータ) (2022-12-30T17:19:00Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - Federated Learning with Unreliable Clients: Performance Analysis and
Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。
しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。
クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T08:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。