論文の概要: The Repeat Offenders: Characterizing and Predicting Extremely Bug-Prone Source Methods
- arxiv url: http://arxiv.org/abs/2511.22726v1
- Date: Thu, 27 Nov 2025 19:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.699207
- Title: The Repeat Offenders: Characterizing and Predicting Extremely Bug-Prone Source Methods
- Title(参考訳): 繰り返し攻撃者:極端バグ発生源法の特徴と予測
- Authors: Ethan Friesen, Sasha Morton-Salmon, Md Nahidul Islam Opu, Shahidul Islam, Shaiful Chowdhury,
- Abstract要約: ExtremelyBuggyメソッドはすべてのメソッドのごく一部を構成するだけである。
これらの方法は非常に大きく、より複雑で、読みやすく、単独バグや非バグメソッドよりも保守性が低い。
- 参考スコア(独自算出の注目度): 0.8481798330936976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying the small subset of source code that repeatedly attracts bugs is critical for reducing long-term maintenance effort. We define ExtremelyBuggy methods as those involved in more than one bug fix and present the first large-scale study of their prevalence, characteristics, and predictability. Using a dataset of over 1.25 million methods from 98 open-source Java projects, we find that ExtremelyBuggy methods constitute only a tiny fraction of all methods, yet frequently account for a disproportionately large share of bugs. At their inception, these methods are significantly larger, more complex, less readable, and less maintainable than both singly-buggy and non-buggy methods. However, despite these measurable differences, a comprehensive evaluation of five machine learning models shows that early prediction of ExtremelyBuggy methods remains highly unreliable due to data imbalance, project heterogeneity, and the fact that many bugs emerge through subsequent evolution rather than initial implementation. To complement these quantitative findings, we conduct a thematic analysis of 265 ExtremelyBuggy methods, revealing recurring visual issues (e.g., confusing control flow, poor readability), contextual roles (e.g., core logic, data transformation, external resource handling), and common defect patterns (e.g., faulty conditionals, fragile error handling, misuse of variables). These results highlight the need for richer, evolution-aware representations of code and provide actionable insights for practitioners seeking to prioritize high-risk methods early in the development lifecycle.
- Abstract(参考訳): バグを何度も引き寄せるソースコードの小さなサブセットを特定することは、長期的なメンテナンスの労力を減らすために重要です。
我々は、ExtremelyBuggyメソッドを複数のバグ修正に関わるものとして定義し、その有病率、特性、予測可能性に関する最初の大規模研究を示す。
98のオープンソースJavaプロジェクトから125万以上のメソッドのデータセットを使用して、ExtremelyBuggyメソッドがすべてのメソッドのごく一部に過ぎず、不均等に多くのバグの原因となっていることが分かりました。
開始時点では、これらのメソッドはより大きく、より複雑で、読みやすく、単独のバグや非バグのメソッドよりも保守性が低い。
しかし、これらの測定可能な相違にもかかわらず、5つの機械学習モデルの包括的な評価により、ExtremelyBuggyメソッドの早期予測は、データの不均衡、プロジェクトの異質性、そして多くのバグが初期実装よりもその後の進化を通じて現れるという事実により、信頼性が低いことが示されている。
これらの定量的な知見を補完するため,265 ExtremelyBuggy法を理論的に解析し,繰り返し発生する視覚的問題(制御フローの混乱,可読性の低下など),コンテキスト的役割(コアロジック,データ変換,外部リソースハンドリング),一般的な欠陥パターン(障害条件,脆弱なエラーハンドリング,変数の誤用など)を明らかにする。
これらの結果は、よりリッチで進化を意識したコード表現の必要性を強調し、開発ライフサイクルの初期にハイリスクなメソッドを優先順位付けしようとする実践者に対して実用的な洞察を提供する。
関連論文リスト
- BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - ADPTriage: Approximate Dynamic Programming for Bug Triage [0.0]
オンラインバグトリアージタスクのためのマルコフ決定プロセス(MDP)モデルを開発した。
私たちはADPTriageと呼ばれるADPベースのバグトリアージソリューションを提供しています。
以上の結果から, 代入精度と固定時間の観点から, ミオピックアプローチよりも有意な改善が見られた。
論文 参考訳(メタデータ) (2022-11-02T04:42:21Z) - Infrared: A Meta Bug Detector [10.541969253100815]
我々はメタバグ検出と呼ばれる新しいアプローチを提案し、既存の学習ベースのバグ検出よりも3つの重要な利点を提供している。
我々のメタバグ検出装置(MBD)は,ヌルポインタの参照,配列インデックスのアウト・オブ・バウンド,ファイルハンドルのリーク,さらには並列プログラムにおけるデータ競合など,さまざまなバグの発見に有効であることを示す。
論文 参考訳(メタデータ) (2022-09-18T09:08:51Z) - An Empirical Study on Bug Severity Estimation using Source Code Metrics and Static Analysis [0.8621608193534838]
我々は、19のJavaオープンソースプロジェクトと異なる重度ラベルを持つ3,358のバグギーメソッドを調査した。
結果は、コードメトリクスがバグの多いコードを予測するのに有用であることを示しているが、バグの深刻度レベルを見積もることはできない。
当社の分類では、セキュリティバグがほとんどのケースで高い重大性を持っているのに対して、エッジ/バウンダリ障害は低い重大性を持っていることが示されています。
論文 参考訳(メタデータ) (2022-06-26T17:07:23Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。