論文の概要: Privacy-Preserving Methods for Bug Severity Prediction
- arxiv url: http://arxiv.org/abs/2506.22752v1
- Date: Sat, 28 Jun 2025 04:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.547185
- Title: Privacy-Preserving Methods for Bug Severity Prediction
- Title(参考訳): バグ重大度予測のためのプライバシ保護手法
- Authors: Havvanur Dervişoğlu, Ruşen Halepmollası, Elif Eyvaz,
- Abstract要約: ソースコードメトリクスと大規模言語モデルを用いたメソッドレベルのバグ重大度予測について検討する。
集中学習,フェデレート学習,合成データ生成を用いて学習したモデルの性能を比較した。
我々の発見は、産業環境で効果的なバグの深刻度予測を可能にするために、プライバシー保護アプローチの可能性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bug severity prediction is a critical task in software engineering as it enables more efficient resource allocation and prioritization in software maintenance. While AI-based analyses and models significantly require access to extensive datasets, industrial applications face challenges due to data-sharing constraints and the limited availability of labeled data. In this study, we investigate method-level bug severity prediction using source code metrics and Large Language Models (LLMs) with two widely used datasets. We compare the performance of models trained using centralized learning, federated learning, and synthetic data generation. Our experimental results, obtained using two widely recognized software defect datasets, indicate that models trained with federated learning and synthetic data achieve comparable results to centrally trained models without data sharing. Our finding highlights the potential of privacy-preserving approaches such as federated learning and synthetic data generation to enable effective bug severity prediction in industrial context where data sharing is a major challenge. The source code and dataset are available at our GitHub repository: https://github.com/drvshavva/EASE2025-Privacy-Preserving-Methods-for-Bug-Severity-Prediction.
- Abstract(参考訳): バグ重大度予測は、ソフトウェアメンテナンスにおいてより効率的なリソース割り当てと優先順位付けを可能にするため、ソフトウェアエンジニアリングにおいて重要なタスクである。
AIベースの分析とモデルは広範なデータセットへのアクセスを著しく要求する一方で、産業アプリケーションはデータ共有の制約とラベル付きデータの可用性の制限のために課題に直面している。
本研究では、ソースコードメトリクスと2つの広く使われているデータセットを用いた大規模言語モデル(LLM)を用いたメソッドレベルのバグ重大度予測について検討する。
集中学習,フェデレート学習,合成データ生成を用いて学習したモデルの性能を比較した。
2つの広く認識されているソフトウェア欠陥データセットを用いて得られた実験結果は、フェデレートラーニングと合成データで訓練されたモデルが、データ共有のない中心的に訓練されたモデルに匹敵する結果が得られることを示している。
我々の発見は、データ共有が大きな課題である産業環境において、効果的なバグ重大度予測を可能にするために、フェデレーションドラーニングや合成データ生成といったプライバシー保護アプローチの可能性を強調している。
ソースコードとデータセットはGitHubリポジトリで入手できる。 https://github.com/drvshavva/EASE2025-Privacy-Preserving-Methods-for-Bug-Severity-Prediction。
関連論文リスト
- Collaborative Prediction: To Join or To Disjoin Datasets [5.9697789282446605]
人口減少を最小限に抑えるために適切なデータセットを選択する実用的なアルゴリズムを開発することの課題について検討する。
オラクルの不等式とデータ駆動推定器を活用することにより、アルゴリズムは高い確率で人口減少を低減する。
論文 参考訳(メタデータ) (2025-06-12T20:25:07Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - An Investigation of Smart Contract for Collaborative Machine Learning
Model Training [3.5679973993372642]
協調機械学習(CML)はビッグデータ時代において様々な分野に浸透してきた。
MLモデルのトレーニングには大量の高品質なデータが必要であるため、データのプライバシに関する懸念を取り除く必要がある。
ブロックチェーンに基づいて、スマートコントラクトはデータ保存とバリデーションの自動実行を可能にする。
論文 参考訳(メタデータ) (2022-09-12T04:25:01Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。