Fugu-MT 論文翻訳(概要): PerfCurator: Curating a large-scale dataset of performance bug-related commits from public repositories

論文の概要: PerfCurator: Curating a large-scale dataset of performance bug-related commits from public repositories

arxiv url: http://arxiv.org/abs/2406.11731v1
Date: Mon, 17 Jun 2024 16:49:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 13:43:30.063293
Title: PerfCurator: Curating a large-scale dataset of performance bug-related commits from public repositories
Title（参考訳）: PerfCurator: 公開リポジトリからの大規模なパフォーマンスバグ関連コミットデータセットのキュレーション
Authors: Md Abul Kalam Azad, Manoj Alexender, Matthew Alexender, Syed Salauddin Mohammad Tariq, Foyzul Hassan, Probir Roy,
Abstract要約: パフォーマンスバグ関連コミットを大規模に収集するリポジトリマイナであるPerfCuratorを提案する。 PerfCuratorは、パフォーマンスバグ関連のコミットを分類するために訓練された125MパラメータBERTモデルであるPcBERT-KDを使用している。この大規模データセットは,データ駆動型パフォーマンスバグ検出システムの有効性を著しく向上させることを示す。
参考スコア（独自算出の注目度）: 1.382112536681413
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Performance bugs challenge software development, degrading performance and wasting computational resources. Software developers invest substantial effort in addressing these issues. Curating these performance bugs can offer valuable insights to the software engineering research community, aiding in developing new mitigation strategies. However, there is no large-scale open-source performance bugs dataset available. To bridge this gap, we propose PerfCurator, a repository miner that collects performance bug-related commits at scale. PerfCurator employs PcBERT-KD, a 125M parameter BERT model trained to classify performance bug-related commits. Our evaluation shows PcBERT-KD achieves accuracy comparable to 7 billion parameter LLMs but with significantly lower computational overhead, enabling cost-effective deployment on CPU clusters. Utilizing PcBERT-KD as the core component, we deployed PerfCurator on a 50-node CPU cluster to mine GitHub repositories. This extensive mining operation resulted in the construction of a large-scale dataset comprising 114K performance bug-fix commits in Python, 217.9K in C++, and 76.6K in Java. Our results demonstrate that this large-scale dataset significantly enhances the effectiveness of data-driven performance bug detection systems.
Abstract（参考訳）: パフォーマンスのバグはソフトウェア開発に挑戦し、パフォーマンスを低下させ、計算リソースを浪費します。ソフトウェア開発者はこれらの問題を解決するために多大な努力を払っています。これらのパフォーマンスバグを計算することで、ソフトウェアエンジニアリング研究コミュニティに貴重な洞察を与え、新たな緩和戦略の開発を支援します。しかし、大規模なオープンソースパフォーマンスバグデータセットは提供されていない。このギャップを埋めるために,パフォーマンスバグ関連コミットを大規模に収集するリポジトリマイナであるPerfCuratorを提案する。 PerfCuratorは、パフォーマンスバグ関連のコミットを分類するために訓練された125MパラメータBERTモデルであるPcBERT-KDを使用している。評価の結果,PcBERT-KD は70億個のパラメータ LLM に匹敵する精度を達成できるが,計算オーバーヘッドが大幅に小さく,CPU クラスタへの費用対効果が期待できることがわかった。 PcBERT-KDをコアコンポーネントとして使用して、PerfCuratorを50ノードのCPUクラスタにデプロイして、GitHubリポジトリをマイニングしました。この大規模なマイニング操作により、Pythonの114Kパフォーマンスバグフィックスコミット、217.9K、Javaの76.6Kを含む大規模なデータセットが構築された。この大規模データセットは,データ駆動型パフォーマンスバグ検出システムの有効性を著しく向上させることを示す。

関連論文リスト

CrashFixer: A crash resolution agent for the Linux kernel [58.152358195983155]
この作業は、システムレベルのLinuxカーネルバグのベンチマークと、Linuxカーネルで実験を実行するプラットフォームを共有するkGymの上に構築されている。 CrashFixerはLinuxカーネルのバグに適応する最初のLCMベースのソフトウェア修復エージェントである。
論文参考訳（メタデータ） (2025-04-29T04:18:51Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
HAFix: History-Augmented Large Language Models for Bug Fixing [14.593589983869135]
バグ修正におけるヒストリ拡張LDMを表すHAFixを提案する。 11のオープンソースプロジェクトからソースを得た51の単一行バグのデータセットにCode Llamaを採用し、バグの歴史的コンテキストデータをマイニングしています。評価の結果,歴史的Llamasはバグ修正性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-01-15T20:39:32Z)
Continuously Learning Bug Locations [11.185300073739098]
バグローカライゼーションのための複数のサブタスク設定において連続学習(CL)技術を用いることの可能性を評価する。平均相反ランク (MRR) では最大61%,平均精度 (MAP) では44%,トップ@1 では83%,トップ@5 では56%,非定常条件では66%であった。
論文参考訳（メタデータ） (2024-12-15T19:37:15Z)
Are Large Language Models Memorizing Bug Benchmarks? [6.640077652362016]
大規模言語モデル(LLM)は、コード生成、バグ検出、修復など、様々なソフトウェアエンジニアリングタスクに不可欠なものになっている。ソフトウェアエンジニアリングコミュニティの懸念は、ベンチマークがデータ漏洩のリスクのため、真のLLMパフォーマンスを確実に反映していないことだ。一般的なLSMを系統的に評価し、広く使われているバグベンチマークからデータ漏洩に対する感受性を評価する。
論文参考訳（メタデータ） (2024-11-20T13:46:04Z)
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文参考訳（メタデータ） (2024-07-02T21:44:22Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Merging Experts into One: Improving Computational Efficiency of Mixture of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか? そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文参考訳（メタデータ） (2023-10-15T13:28:42Z)
An Analysis of Bugs In Persistent Memory Application [0.0]
我々は,NVMレベルのハッシュPMアプリケーションをテストするために,オープンソースの自動バグ検出ツール(AGAMOTTO)を評価した。私たちの忠実な検証ツールは、PMDKライブラリで65の新しいNVMレベルのハッシュバグを発見しました。本稿では,PM-Aware 探索アルゴリズムを用いたディープQ学習探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-07-19T23:12:01Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
DeepPERF: A Deep Learning-Based Approach For Improving Software Performance [8.251500418379942]
我々は、C#アプリケーションのパフォーマンス改善を提案するトランスフォーマーベースのアプローチであるDeepPERFを紹介する。評価の結果,53%のケースにおいて,開発者の修正と同等のパフォーマンス向上の提案が得られた。私たちは、GitHub上の50のオープンソースC#リポジトリでDeepPERFを評価します。
論文参考訳（メタデータ） (2022-06-27T20:35:52Z)
Break-It-Fix-It: Unsupervised Learning for Program Repair [90.55497679266442]
我々は2つの重要なアイデアを持つ新しいトレーニング手法であるBreak-It-Fix-It (BIFI)を提案する。批判者は、実際の悪い入力でフィクスダーの出力をチェックし、トレーニングデータに良い(固定された)出力を追加する。これらのアイデアに基づいて、よりペア化されたデータを生成するために、ブレーカとフィクスチャを同時に使用しながら、繰り返し更新する。 BIFIは既存のメソッドより優れており、GitHub-Pythonで90.5%、DeepFixで71.7%の修正精度がある。
論文参考訳（メタデータ） (2021-06-11T20:31:04Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。