論文の概要: SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?
- arxiv url: http://arxiv.org/abs/2511.06090v2
- Date: Wed, 12 Nov 2025 01:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 16:10:52.863772
- Title: SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?
- Title(参考訳): SWE-fficiency:言語モデルは実際のワークロードにおける実世界のリポジトリを最適化できるか?
- Authors: Jeffrey Jian Ma, Milad Hashemi, Amir Yazdanbakhsh, Kevin Swersky, Ofir Press, Enhui Li, Vijay Janapa Reddi, Parthasarathy Ranganathan,
- Abstract要約: SWE-fficiencyは、実際のワークロードにおけるリポジトリレベルのパフォーマンス最適化を評価するためのベンチマークである。
私たちのスイートには、9つの広く使用されているデータサイエンス、機械学習、HPCリポジトリにわたる498のタスクが含まれています。
- 参考スコア(独自算出の注目度): 22.075705411944895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing the performance of large-scale software repositories demands expertise in code reasoning and software engineering (SWE) to reduce runtime while preserving program correctness. However, most benchmarks emphasize what to fix rather than how to fix code. We introduce SWE-fficiency, a benchmark for evaluating repository-level performance optimization on real workloads. Our suite contains 498 tasks across nine widely used data-science, machine-learning, and HPC repositories (e.g., numpy, pandas, scipy): given a complete codebase and a slow workload, an agent must investigate code semantics, localize bottlenecks and relevant tests, and produce a patch that matches or exceeds expert speedup while passing the same unit tests. To enable this how-to-fix evaluation, our automated pipeline scrapes GitHub pull requests for performance-improving edits, combining keyword filtering, static analysis, coverage tooling, and execution validation to both confirm expert speedup baselines and identify relevant repository unit tests. Empirical evaluation of state-of-the-art agents reveals significant underperformance. On average, agents achieve less than 0.15x the expert speedup: agents struggle in localizing optimization opportunities, reasoning about execution across functions, and maintaining correctness in proposed edits. We release the benchmark and accompanying data pipeline to facilitate research on automated performance engineering and long-horizon software reasoning.
- Abstract(参考訳): 大規模ソフトウェアリポジトリのパフォーマンスを最適化するには、プログラムの正確性を保ちながらランタイムを減らすために、コード推論とソフトウェアエンジニアリング(SWE)の専門知識が必要である。
しかしながら、ほとんどのベンチマークでは、コードの修正方法よりも修正方法を強調している。
実ワークロード上でのリポジトリレベルのパフォーマンス最適化を評価するベンチマークであるSWE-fficiencyを紹介する。
私たちのスイートには、9つの広く使用されているデータサイエンス、機械学習、HPCリポジトリ(例: numpy、pandas、scipy)にわたる498のタスクが含まれています。
このハウツーフィックス評価を可能にするため、当社の自動パイプラインは、キーワードフィルタリング、静的解析、カバレッジツール、実行検証を組み合わせた、パフォーマンス改善のためのGitHubのプルリクエストを廃止して、専門家のスピードアップベースラインの確認と関連するリポジトリユニットテストの特定を可能にしました。
最先端のエージェントの実験的評価は, 顕著な性能低下を示す。
エージェントは最適化の機会のローカライズに苦労し、関数間の実行を推論し、提案された編集の正確性を維持する。
我々は、自動パフォーマンスエンジニアリングと長期ソフトウェア推論の研究を容易にするために、ベンチマークと付随するデータパイプラインをリリースします。
関連論文リスト
- PerfBench: Can Agents Resolve Real-World Performance Bugs? [4.879400115033142]
PerfBenchは、GitHubから81の実際のパフォーマンスバグ修正タスクからなるベンチマークである。
PerfBenchは、エージェントが独自のパフォーマンスベンチマークを生成することができる新しい評価ハーネスを備えている。
OpenHands-Perf-Agentは、パフォーマンスに配慮したツールと命令を組み、ベンチマークで20%の成功率を達成する。
論文 参考訳(メタデータ) (2025-09-28T22:00:33Z) - From Benchmark Data To Applicable Program Repair: An Experience Report [1.6913109767046948]
本稿では,プログラムの自動修復へのアプローチについて述べる。
我々はこの目的を達成するために文学の様々な技法を組み合わせている。
実験の結果,我々の手法は標準ベンチマークの他の手法よりも優れていることがわかった。
綿密な検査では、これらのテクニックはいずれも、業界で見られる現実的な欠陥には効かない。
論文 参考訳(メタデータ) (2025-08-22T03:59:27Z) - SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories? [32.67971774793393]
SWE-Perfは、認証されたリポジトリコンテキスト内のコードパフォーマンス最適化タスクにおいて、LLM(Large Language Models)を評価するために設計された最初のベンチマークである。
SWE-Perfは140の慎重にキュレートされたインスタンスで構成されており、それぞれが人気のあるGitHubリポジトリのパフォーマンス改善プルリクエストに由来する。
論文 参考訳(メタデータ) (2025-07-16T17:05:17Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - PACE: A Program Analysis Framework for Continuous Performance Prediction [0.0]
PACEはプログラム分析フレームワークで、保留中のコード更新のパフォーマンスへの影響を継続的にフィードバックする。
コード更新によって機能テストケースの実行時間をマッピングすることで,パフォーマンスのマイクロベンチマークを設計する。
我々の実験は、コード性能の予測において、ニューラル表現されたコードスタイメトリーの特徴において、現在の最先端を75%上回る性能を達成した。
論文 参考訳(メタデータ) (2023-12-01T20:43:34Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。