論文の概要: PerfBench: Can Agents Resolve Real-World Performance Bugs?
- arxiv url: http://arxiv.org/abs/2509.24091v2
- Date: Thu, 16 Oct 2025 17:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 16:37:10.521414
- Title: PerfBench: Can Agents Resolve Real-World Performance Bugs?
- Title(参考訳): PerfBench: エージェントは実世界のパフォーマンスバグを解決できるのか?
- Authors: Spandan Garg, Roshanak Zilouchian Moghaddam, Neel Sundaresan,
- Abstract要約: PerfBenchは、GitHubから81の実際のパフォーマンスバグ修正タスクからなるベンチマークである。
PerfBenchは、エージェントが独自のパフォーマンスベンチマークを生成することができる新しい評価ハーネスを備えている。
OpenHands-Perf-Agentは、パフォーマンスに配慮したツールと命令を組み、ベンチマークで20%の成功率を達成する。
- 参考スコア(独自算出の注目度): 4.879400115033142
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Performance bugs are inefficiencies in software that waste computational resources without causing functional failures, making them particularly challenging to detect and fix. While recent advances in Software Engineering agents have shown promise in automated bug fixing, existing benchmarks primarily focus on functional correctness and fail to evaluate agents' abilities to identify and resolve non-functional issues like performance bugs. We introduce PerfBench, a benchmark comprising 81 real-world performance bug-fixing tasks from popular .NET repositories on GitHub. Unlike existing benchmarks that rely on pre-existing test suites, PerfBench features a novel evaluation harness that allows agents to generate their own performance benchmarks and validates fixes by comparing execution metrics collected for developer fix and agent fix. Each task in PerfBench is derived from actual developer fixes linked to performance-related issues, which are then verified by human experts, ensuring real-world relevance. Our evaluation reveals that current state-of-the-art coding agents struggle with performance optimization tasks, with baseline OpenHands agent achieving only a ~3% success rate on our benchmark. We develop OpenHands-Perf-Agent, which incorporates performance-aware tooling and instructions and achieves a ~20% success rate on the benchmark. We show that by ensuring the agent has proper instructions to benchmark its changes and tooling for benchmark output processing, we can improve the agent performance significantly, but room for improvement still remains. PerfBench provides a challenging test set for furthering the capabilities of agents in fixing performance issues.
- Abstract(参考訳): パフォーマンスのバグは、機能不全を引き起こすことなく計算リソースを浪費するソフトウェアにおいて非効率であり、特に検出と修正が難しい。
ソフトウェアエンジニアリングエージェントの最近の進歩は自動バグ修正の約束を示しているが、既存のベンチマークは主に機能的正当性に焦点を当てており、パフォーマンスバグのような非機能的な問題を特定し解決するエージェントの能力を評価できない。
PerfBenchは、人気のある.NETの81の実際のパフォーマンスバグ修正タスクからなるベンチマークである。
GitHub上の.NETリポジトリ。
既存のテストスイートに依存する既存のベンチマークとは異なり、PerfBenchは新たな評価ハーネスを備えており、エージェントが独自のパフォーマンスベンチマークを生成し、開発者修正とエージェント修正のために収集された実行メトリクスを比較して修正を検証することができる。
PerfBenchの各タスクは、パフォーマンス関連の問題に関連する実際の開発者修正から導かれる。
評価の結果、現在の最先端のコーディングエージェントはパフォーマンス最適化タスクに苦労しており、ベースラインのOpenHandsエージェントはベンチマークでわずか3%の成功率しか達成していないことがわかった。
OpenHands-Perf-Agentは、パフォーマンスに配慮したツールと命令を組み、ベンチマークで約20%の成功率を達成する。
エージェントにその変更とベンチマーク出力処理のためのツールをベンチマークする適切な指示を確実にすることで、エージェントのパフォーマンスを大幅に改善できるが、改善の余地は依然として残っている。
PerfBenchは、パフォーマンス問題を修正するエージェントの能力を向上するための挑戦的なテストセットを提供する。
関連論文リスト
- ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads? [0.8749675983608171]
実世界の推論タスクでその能力をテストするためのコーディングエージェントのベンチマークであるISO-Benchを紹介する。
統合プルリクエストから54のタスクをキュレートし、測定可能なパフォーマンスを改善しました。
論文 参考訳(メタデータ) (2026-02-23T08:37:53Z) - FeatureBench: Benchmarking Agentic Coding for Complex Feature Development [42.26354337364403]
FeatureBenchは、エンドツーエンドのフィーチャ指向ソフトウェア開発におけるエージェントコーディングのパフォーマンスを評価するために設計されたベンチマークである。
実行ベースの評価プロトコルと、人間の最小限の労力でコードリポジトリからタスクを自動的に引き出す、スケーラブルなテスト駆動メソッドが組み込まれている。
実証的な評価により、クロード4.5オプスのような最先端のエージェントモデルがSWEベンチで74.4%の解決率を達成することが明らかになった。
論文 参考訳(メタデータ) (2026-02-11T16:06:32Z) - Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - PerfGuard: A Performance-Aware Agent for Visual Content Generation [53.591105729011595]
PerfGuardは、ビジュアルコンテンツ生成のためのパフォーマンス対応のエージェントフレームワークである。
ツールのパフォーマンス境界をタスク計画とスケジューリングに統合する。
ツール選択の正確性、実行の信頼性、ユーザの意図との整合性にメリットがあります。
論文 参考訳(メタデータ) (2026-01-30T05:12:19Z) - Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。
ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。
将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (2026-01-17T01:29:30Z) - SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads? [22.075705411944895]
SWE-fficiencyは、実際のワークロードにおけるリポジトリレベルのパフォーマンス最適化を評価するためのベンチマークである。
私たちのスイートには、9つの広く使用されているデータサイエンス、機械学習、HPCリポジトリにわたる498のタスクが含まれています。
論文 参考訳(メタデータ) (2025-11-08T17:55:09Z) - Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents [71.85020581835042]
大規模言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、環境構成はボトルネックのままである。
既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。
本研究では,環境設定計画中の細粒度エージェントのプロセスレベルの軌道評価を行うEnconda-benchを紹介する。
論文 参考訳(メタデータ) (2025-10-29T16:59:07Z) - From Benchmark Data To Applicable Program Repair: An Experience Report [1.6913109767046948]
本稿では,プログラムの自動修復へのアプローチについて述べる。
我々はこの目的を達成するために文学の様々な技法を組み合わせている。
実験の結果,我々の手法は標準ベンチマークの他の手法よりも優れていることがわかった。
綿密な検査では、これらのテクニックはいずれも、業界で見られる現実的な欠陥には効かない。
論文 参考訳(メタデータ) (2025-08-22T03:59:27Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,SWE-Bench-Verifiedの性能向上は,真の問題解決よりも記憶によってもたらされる可能性があることを示す。
現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。
これらの結果は、既存の結果の有効性に関する懸念を提起し、より堅牢で汚染に強いベンチマークの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-14T00:25:26Z) - SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。
本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。
その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-03-03T01:55:20Z) - PACE: A Program Analysis Framework for Continuous Performance Prediction [0.0]
PACEはプログラム分析フレームワークで、保留中のコード更新のパフォーマンスへの影響を継続的にフィードバックする。
コード更新によって機能テストケースの実行時間をマッピングすることで,パフォーマンスのマイクロベンチマークを設計する。
我々の実験は、コード性能の予測において、ニューラル表現されたコードスタイメトリーの特徴において、現在の最先端を75%上回る性能を達成した。
論文 参考訳(メタデータ) (2023-12-01T20:43:34Z) - DeepPERF: A Deep Learning-Based Approach For Improving Software
Performance [8.251500418379942]
我々は、C#アプリケーションのパフォーマンス改善を提案するトランスフォーマーベースのアプローチであるDeepPERFを紹介する。
評価の結果,53%のケースにおいて,開発者の修正と同等のパフォーマンス向上の提案が得られた。
私たちは、GitHub上の50のオープンソースC#リポジトリでDeepPERFを評価します。
論文 参考訳(メタデータ) (2022-06-27T20:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。