論文の概要: Will It Break in Production? Metric-Driven Prediction of Residual Defects in Python Systems
- arxiv url: http://arxiv.org/abs/2604.26667v1
- Date: Wed, 29 Apr 2026 13:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.420951
- Title: Will It Break in Production? Metric-Driven Prediction of Residual Defects in Python Systems
- Title(参考訳): 生産は失敗するのか? Pythonシステムにおける残留欠陥のメトリクス駆動予測
- Authors: Giuseppe De Rosa, Pietro Liguori,
- Abstract要約: Pythonのダイナミックな性質は、テストを複雑にし、いくつかの欠陥が検出を回避している可能性を高める。
本稿では,最新のMLとDLを用いて,リリース後の障害を予測できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 1.5518561673506692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Python's dynamic nature complicates testing and increases the possibility that some defects evade detection, so an effective fault prediction becomes essential. We examine whether post-release faults can be predicted using modern ML and DL. Using a balanced dataset of over 4,000 labeled faults with 83 product, process, statistical, and Python-specific metrics plus normalized code representations, we conduct cross-project experiments. LLMs and unsupervised models fail to distinguish residual from non-residual faults, while supervised metric-based models (RandomForest, XGBoost, CatBoost) perform far better, yielding a 0.85-0.9 recall and cutting false negatives by an order of magnitude. Process metrics, especially age, churn, and developer-activity, alongside class and file size, consistently prove most predictive. Notably, the Principal Component Analysis shows that metrics and code embeddings occupy distinct regions of the representation space, suggesting that they capture complementary rather than redundant information.
- Abstract(参考訳): Pythonのダイナミックな性質は、テストが複雑になり、いくつかの欠陥が検出を回避している可能性を高めるため、効果的な障害予測が不可欠になる。
本稿では,最新のMLとDLを用いて,リリース後の障害を予測できるかどうかを検討する。
83の製品、プロセス、統計、Python固有のメトリクスと正規化されたコード表現を備えた4000以上のラベル付き障害のバランスの取れたデータセットを使用して、クロスプロジェクト実験を行います。
LLMと非教師なしモデルは残留しない断層と残差を区別することができないが、教師付きメートル法に基づくモデル(RandomForest、XGBoost、CatBoost)はより良く動作し、0.85-0.9リコールと偽陰性を桁違いにカットする。
プロセスメトリクス、特に年齢、混乱、開発者アクティビティは、クラスとファイルサイズとともに、常に最も予測的であることを証明します。
特に、Principal Component Analysisでは、メトリクスとコード埋め込みが表現空間の異なる領域を占めており、冗長な情報ではなく補完的な情報を捉えることを示唆している。
関連論文リスト
- Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - Language Models Can Predict Their Own Behavior [29.566208688211876]
言語モデル(LM)は、アライメントトレーニングに従わないなど、特定の振る舞いを示すことができます。
入力トークンの内部表現だけで訓練されたプローブは、出力シーケンス全体にわたって幅広い結果の挙動を予測することができることを示す。
プローブ上に構築された早期警報システムは、脱獄を91%削減する。
論文 参考訳(メタデータ) (2025-02-18T23:13:16Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Beyond the Norms: Detecting Prediction Errors in Regression Models [26.178065248948773]
本稿では,回帰アルゴリズムにおける信頼できない振る舞いを検出するという課題に取り組む。
回帰器の出力が特定の不一致(または誤り)を超えた場合、回帰における不確実性の概念を導入する。
複数の回帰タスクに対する誤り検出の実証的改善を示す。
論文 参考訳(メタデータ) (2024-06-11T05:51:44Z) - Variance of ML-based software fault predictors: are we really improving
fault prediction? [0.3222802562733786]
我々は、最先端の故障予測手法のばらつきを実験的に分析する。
我々は,クラス毎の精度測定値において最大10.10%のばらつきを観測した。
論文 参考訳(メタデータ) (2023-10-26T09:31:32Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。
トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文 参考訳(メタデータ) (2021-03-23T16:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。