論文の概要: PerfBench: Can Agents Resolve Real-World Performance Bugs?
- arxiv url: http://arxiv.org/abs/2509.24091v1
- Date: Sun, 28 Sep 2025 22:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.626458
- Title: PerfBench: Can Agents Resolve Real-World Performance Bugs?
- Title(参考訳): PerfBench: エージェントは実世界のパフォーマンスバグを解決できるのか?
- Authors: Spandan Garg, Roshanak Zilouchian Moghaddam,
- Abstract要約: PerfBenchは、GitHubから81の実際のパフォーマンスバグ修正タスクからなるベンチマークである。
PerfBenchは、エージェントが独自のパフォーマンスベンチマークを生成することができる新しい評価ハーネスを備えている。
OpenHands-Perf-Agentは、パフォーマンスに配慮したツールと命令を組み、ベンチマークで20%の成功率を達成する。
- 参考スコア(独自算出の注目度): 2.778306069126391
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Performance bugs are inefficiencies in software that waste computational resources without causing functional failures, making them particularly challenging to detect and fix. While recent advances in Software Engineering agents have shown promise in automated bug fixing, existing benchmarks primarily focus on functional correctness and fail to evaluate agents' abilities to identify and resolve non-functional issues like performance bugs. We introduce PerfBench, a benchmark comprising 81 real-world performance bug-fixing tasks from popular .NET repositories on GitHub. Unlike existing benchmarks that rely on pre-existing test suites, PerfBench features a novel evaluation harness that allows agents to generate their own performance benchmarks and validates fixes by comparing execution metrics collected for developer fix and agent fix. Each task in PerfBench is derived from actual developer fixes linked to performance-related issues, which are then verified by human experts, ensuring real-world relevance. Our evaluation reveals that current state-of-the-art coding agents struggle with performance optimization tasks, with baseline OpenHands agent achieving only a ~3% success rate on our benchmark. We develop OpenHands-Perf-Agent, which incorporates performance-aware tooling and instructions and achieves a ~20% success rate on the benchmark. We show that by ensuring the agent has proper instructions to benchmark its changes and tooling for benchmark output processing, we can improve the agent performance significantly, but room for improvement still remains. PerfBench provides a challenging test set for furthering the capabilities of agents in fixing performance issues.
- Abstract(参考訳): パフォーマンスのバグは、機能不全を引き起こすことなく計算リソースを浪費するソフトウェアにおいて非効率であり、特に検出と修正が難しい。
ソフトウェアエンジニアリングエージェントの最近の進歩は自動バグ修正の約束を示しているが、既存のベンチマークは主に機能的正当性に焦点を当てており、パフォーマンスバグのような非機能的な問題を特定し解決するエージェントの能力を評価できない。
PerfBenchは、人気のある.NETの81の実際のパフォーマンスバグ修正タスクからなるベンチマークである。
GitHub上の.NETリポジトリ。
既存のテストスイートに依存する既存のベンチマークとは異なり、PerfBenchは新たな評価ハーネスを備えており、エージェントが独自のパフォーマンスベンチマークを生成し、開発者修正とエージェント修正のために収集された実行メトリクスを比較して修正を検証することができる。
PerfBenchの各タスクは、パフォーマンス関連の問題に関連する実際の開発者修正から導かれる。
評価の結果、現在の最先端のコーディングエージェントはパフォーマンス最適化タスクに苦労しており、ベースラインのOpenHandsエージェントはベンチマークでわずか3%の成功率しか達成していないことがわかった。
OpenHands-Perf-Agentは、パフォーマンスに配慮したツールと命令を組み、ベンチマークで約20%の成功率を達成する。
エージェントにその変更とベンチマーク出力処理のためのツールをベンチマークする適切な指示を確実にすることで、エージェントのパフォーマンスを大幅に改善できるが、改善の余地は依然として残っている。
PerfBenchは、パフォーマンス問題を修正するエージェントの能力を向上するための挑戦的なテストセットを提供する。
関連論文リスト
- From Benchmark Data To Applicable Program Repair: An Experience Report [1.6913109767046948]
本稿では,プログラムの自動修復へのアプローチについて述べる。
我々はこの目的を達成するために文学の様々な技法を組み合わせている。
実験の結果,我々の手法は標準ベンチマークの他の手法よりも優れていることがわかった。
綿密な検査では、これらのテクニックはいずれも、業界で見られる現実的な欠陥には効かない。
論文 参考訳(メタデータ) (2025-08-22T03:59:27Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,SWE-Bench-Verifiedの性能向上は,真の問題解決よりも記憶によってもたらされる可能性があることを示す。
現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。
これらの結果は、既存の結果の有効性に関する懸念を提起し、より堅牢で汚染に強いベンチマークの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-14T00:25:26Z) - SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。
本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。
その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-03-03T01:55:20Z) - PACE: A Program Analysis Framework for Continuous Performance Prediction [0.0]
PACEはプログラム分析フレームワークで、保留中のコード更新のパフォーマンスへの影響を継続的にフィードバックする。
コード更新によって機能テストケースの実行時間をマッピングすることで,パフォーマンスのマイクロベンチマークを設計する。
我々の実験は、コード性能の予測において、ニューラル表現されたコードスタイメトリーの特徴において、現在の最先端を75%上回る性能を達成した。
論文 参考訳(メタデータ) (2023-12-01T20:43:34Z) - DeepPERF: A Deep Learning-Based Approach For Improving Software
Performance [8.251500418379942]
我々は、C#アプリケーションのパフォーマンス改善を提案するトランスフォーマーベースのアプローチであるDeepPERFを紹介する。
評価の結果,53%のケースにおいて,開発者の修正と同等のパフォーマンス向上の提案が得られた。
私たちは、GitHub上の50のオープンソースC#リポジトリでDeepPERFを評価します。
論文 参考訳(メタデータ) (2022-06-27T20:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。