論文の概要: PerfCurator: Curating a large-scale dataset of performance bug-related commits from public repositories
- arxiv url: http://arxiv.org/abs/2406.11731v1
- Date: Mon, 17 Jun 2024 16:49:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 13:43:30.063293
- Title: PerfCurator: Curating a large-scale dataset of performance bug-related commits from public repositories
- Title(参考訳): PerfCurator: 公開リポジトリからの大規模なパフォーマンスバグ関連コミットデータセットのキュレーション
- Authors: Md Abul Kalam Azad, Manoj Alexender, Matthew Alexender, Syed Salauddin Mohammad Tariq, Foyzul Hassan, Probir Roy,
- Abstract要約: パフォーマンスバグ関連コミットを大規模に収集するリポジトリマイナであるPerfCuratorを提案する。
PerfCuratorは、パフォーマンスバグ関連のコミットを分類するために訓練された125MパラメータBERTモデルであるPcBERT-KDを使用している。
この大規模データセットは,データ駆動型パフォーマンスバグ検出システムの有効性を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 1.382112536681413
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Performance bugs challenge software development, degrading performance and wasting computational resources. Software developers invest substantial effort in addressing these issues. Curating these performance bugs can offer valuable insights to the software engineering research community, aiding in developing new mitigation strategies. However, there is no large-scale open-source performance bugs dataset available. To bridge this gap, we propose PerfCurator, a repository miner that collects performance bug-related commits at scale. PerfCurator employs PcBERT-KD, a 125M parameter BERT model trained to classify performance bug-related commits. Our evaluation shows PcBERT-KD achieves accuracy comparable to 7 billion parameter LLMs but with significantly lower computational overhead, enabling cost-effective deployment on CPU clusters. Utilizing PcBERT-KD as the core component, we deployed PerfCurator on a 50-node CPU cluster to mine GitHub repositories. This extensive mining operation resulted in the construction of a large-scale dataset comprising 114K performance bug-fix commits in Python, 217.9K in C++, and 76.6K in Java. Our results demonstrate that this large-scale dataset significantly enhances the effectiveness of data-driven performance bug detection systems.
- Abstract(参考訳): パフォーマンスのバグはソフトウェア開発に挑戦し、パフォーマンスを低下させ、計算リソースを浪費します。
ソフトウェア開発者はこれらの問題を解決するために多大な努力を払っています。
これらのパフォーマンスバグを計算することで、ソフトウェアエンジニアリング研究コミュニティに貴重な洞察を与え、新たな緩和戦略の開発を支援します。
しかし、大規模なオープンソースパフォーマンスバグデータセットは提供されていない。
このギャップを埋めるために,パフォーマンスバグ関連コミットを大規模に収集するリポジトリマイナであるPerfCuratorを提案する。
PerfCuratorは、パフォーマンスバグ関連のコミットを分類するために訓練された125MパラメータBERTモデルであるPcBERT-KDを使用している。
評価の結果,PcBERT-KD は70億個のパラメータ LLM に匹敵する精度を達成できるが,計算オーバーヘッドが大幅に小さく,CPU クラスタへの費用対効果が期待できることがわかった。
PcBERT-KDをコアコンポーネントとして使用して、PerfCuratorを50ノードのCPUクラスタにデプロイして、GitHubリポジトリをマイニングしました。
この大規模なマイニング操作により、Pythonの114Kパフォーマンスバグフィックスコミット、217.9K、Javaの76.6Kを含む大規模なデータセットが構築された。
この大規模データセットは,データ駆動型パフォーマンスバグ検出システムの有効性を著しく向上させることを示す。
関連論文リスト
- HAFix: History-Augmented Large Language Models for Bug Fixing [14.593589983869135]
バグ修正におけるヒストリ拡張LDMを表すHAFixを提案する。
11のオープンソースプロジェクトからソースを得た51の単一行バグのデータセットにCode Llamaを採用し、バグの歴史的コンテキストデータをマイニングしています。
評価の結果,歴史的Llamasはバグ修正性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-15T20:39:32Z) - Continuously Learning Bug Locations [11.185300073739098]
バグローカライゼーションのための複数のサブタスク設定において連続学習(CL)技術を用いることの可能性を評価する。
平均相反ランク (MRR) では最大61%,平均精度 (MAP) では44%,トップ@1 では83%,トップ@5 では56%,非定常条件では66%であった。
論文 参考訳(メタデータ) (2024-12-15T19:37:15Z) - Are Large Language Models Memorizing Bug Benchmarks? [6.640077652362016]
大規模言語モデル(LLM)は、コード生成、バグ検出、修復など、様々なソフトウェアエンジニアリングタスクに不可欠なものになっている。
ソフトウェアエンジニアリングコミュニティの懸念は、ベンチマークがデータ漏洩のリスクのため、真のLLMパフォーマンスを確実に反映していないことだ。
一般的なLSMを系統的に評価し、広く使われているバグベンチマークからデータ漏洩に対する感受性を評価する。
論文 参考訳(メタデータ) (2024-11-20T13:46:04Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - DeepPERF: A Deep Learning-Based Approach For Improving Software
Performance [8.251500418379942]
我々は、C#アプリケーションのパフォーマンス改善を提案するトランスフォーマーベースのアプローチであるDeepPERFを紹介する。
評価の結果,53%のケースにおいて,開発者の修正と同等のパフォーマンス向上の提案が得られた。
私たちは、GitHub上の50のオープンソースC#リポジトリでDeepPERFを評価します。
論文 参考訳(メタデータ) (2022-06-27T20:35:52Z) - Break-It-Fix-It: Unsupervised Learning for Program Repair [90.55497679266442]
我々は2つの重要なアイデアを持つ新しいトレーニング手法であるBreak-It-Fix-It (BIFI)を提案する。
批判者は、実際の悪い入力でフィクスダーの出力をチェックし、トレーニングデータに良い(固定された)出力を追加する。
これらのアイデアに基づいて、よりペア化されたデータを生成するために、ブレーカとフィクスチャを同時に使用しながら、繰り返し更新する。
BIFIは既存のメソッドより優れており、GitHub-Pythonで90.5%、DeepFixで71.7%の修正精度がある。
論文 参考訳(メタデータ) (2021-06-11T20:31:04Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。