論文の概要: On the calibration of Just-in-time Defect Prediction
- arxiv url: http://arxiv.org/abs/2504.12051v1
- Date: Wed, 16 Apr 2025 13:06:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:40:41.657355
- Title: On the calibration of Just-in-time Defect Prediction
- Title(参考訳): ジャストインタイム欠陥予測の校正について
- Authors: Xhulja Shahini, Jone Bartel, Klaus Pohl,
- Abstract要約: 我々は,3つのJIT DP手法の校正評価を行い,校正が不十分であるかどうかを判断した。
その結果、評価されたJIT DPモデルはすべてある程度の誤校正を示し、ECEは2~35%であった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Just in time defect prediction (JIT DP) leverages ML to identify defect-prone code commits, enabling quality assurance (QA) teams to allocate resources more efficiently by focusing on commits that are most likely to contain defects. Although JIT DP techniques have introduced improvements in terms of predictive accuracy, they are still susceptible to misclassification errors such as false positives and negatives. This can lead to wasted resources or undetected defects, a particularly critical concern when QA resources are limited. To mitigate these challenges and preserve the practical utility of JIT DP tools, it becomes essential to estimate the reliability of the predictions, i.e., computing confidence scores. Such scores can help practitioners determine the trustworthiness of predictions and thus prioritize them efficiently. A simple approach to computing confidence scores is to extract, alongside each prediction, the corresponding prediction probabilities and use them as indicators of confidence. However, for these probabilities to reliably serve as confidence scores, the predictive model must be well-calibrated. This means that the prediction probabilities must accurately represent the true likelihood of each prediction being correct. Miscalibration, common in modern ML models, distorts probability scores such that they do not align with the actual correctness probability. In this study, we evaluate the calibration of three JIT DP techniques to determine whether and to what extent they exhibit poor calibration. Furthermore, we assess whether post-calibration methods can improve the calibration of existing JIT defect prediction models. Our results reveal that all evaluated JIT DP models exhibit some level of miscalibration, with ECE ranging from 2-35%. Furthermore, post-calibration methods do not consistently improve the calibration.
- Abstract(参考訳): ちょうど時間内欠陥予測(JIT DP)は、MLを活用して欠陥が発生しやすいコードコミットを特定し、品質保証(QA)チームが、欠陥を含む可能性が最も高いコミットに集中することによって、リソースをより効率的に割り当てることを可能にする。
JIT DP技術は予測精度の点で改善されているが、偽陽性や陰性などの誤分類エラーの影響を受けやすい。
これは、無駄なリソースや未検出の欠陥につながる可能性がある。
これらの課題を緩和し、JIT DPツールの実用性を維持するためには、予測の信頼性、すなわち、計算信頼性スコアを推定することが不可欠である。
このようなスコアは、実践者が予測の信頼性を判断し、効果的に優先順位付けするのに役立ちます。
信頼性スコアを計算するための単純なアプローチは、各予測と対応する予測確率を抽出し、信頼の指標として使用することである。
しかしながら、これらの確率が信頼スコアとして確実に機能するためには、予測モデルは十分に校正されなければならない。
つまり、予測確率は、それぞれの予測が正しいという真の可能性を表す必要がある。
現代のMLモデルで一般的なミススカラー化は、実際の正当性確率と一致しないように確率スコアを歪める。
本研究では,3つのJIT DP手法のキャリブレーションを評価し,キャリブレーションが不十分であるかどうかを判断する。
さらに,従来のJIT欠陥予測モデルのキャリブレーションを改善するために,ポストキャリブレーション法が有効かを評価する。
その結果,評価されたJIT DPモデルはすべてある程度の誤校正を示し,ECEは2~35%であった。
さらに、校正後の手法はキャリブレーションを常に改善しない。
関連論文リスト
- Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.42244686183879]
コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。
しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。
信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:37:11Z) - Error-Driven Uncertainty Aware Training [7.702016079410588]
Error-Driven Uncertainty Aware Trainingは、ニューラル分類器が不確実性を正確に推定する能力を高めることを目的としている。
EUATアプローチは、モデルのトレーニングフェーズ中に、トレーニング例が正しく予測されているか、あるいは正しく予測されているかによって、2つの損失関数を選択的に使用することによって機能する。
画像認識領域における多様なニューラルモデルとデータセットを用いてEUATを評価する。
論文 参考訳(メタデータ) (2024-05-02T11:48:14Z) - Optimizing Calibration by Gaining Aware of Prediction Correctness [30.619608580138802]
クロスエントロピー(CE)損失はキャリブレータトレーニングに広く使われており、基底真理クラスに対する信頼を高めるためにモデルを強制する。
本稿では, キャリブレーションの目的から得られた, ポストホックキャリブレーションの新たなキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T17:25:43Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Calibrated Uncertainty Quantification for Operator Learning via
Conformal Prediction [95.75771195913046]
本稿では, リスク制御型量子ニューラル演算子, 分布のない有限サンプル機能キャリブレーション等式予測法を提案する。
関数領域上の点の期待値として定義されるカバレッジ率に関する理論的キャリブレーションを保証する。
2次元ダーシー流と3次元自動車表面圧力予測タスクに関する実験結果から,我々の理論的結果が検証された。
論文 参考訳(メタデータ) (2024-02-02T23:43:28Z) - Two Sides of Miscalibration: Identifying Over and Under-Confidence
Prediction for Network Calibration [1.192436948211501]
安全クリティカルなタスクにおける信頼性予測には、ディープニューラルネットワークの信頼性校正が不可欠である。
ミススキャリブレーションは、過信と/または過信をモデル化する。
校正点とクラス別校正点を同定するために,新しい校正点である校正点を導入する。
クラスワイドの誤校正スコアをプロキシとして使用して,過度かつ過度に対処可能な校正手法を設計する。
論文 参考訳(メタデータ) (2023-08-06T17:59:14Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z) - T-Cal: An optimal test for the calibration of predictive models [49.11538724574202]
有限検証データセットを用いた予測モデルの誤校正を仮説検証問題として検討する。
誤校正の検出は、クラスの条件付き確率が予測の十分滑らかな関数である場合にのみ可能である。
我々は、$ell$-Expected Error(ECE)のデバイアスドプラグイン推定器に基づくキャリブレーションのためのミニマックステストであるT-Calを提案する。
論文 参考訳(メタデータ) (2022-03-03T16:58:54Z) - Bayesian Confidence Calibration for Epistemic Uncertainty Modelling [4.358626952482686]
キャリブレーション法の不確実性を考慮した信頼度推定手法を提案する。
物体検出校正のための最先端校正性能を実現する。
論文 参考訳(メタデータ) (2021-09-21T10:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。