論文の概要: GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents
- arxiv url: http://arxiv.org/abs/2505.23671v2
- Date: Sat, 31 May 2025 01:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.071837
- Title: GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents
- Title(参考訳): GSO:SWEエージェントを評価するためのソフトウェア最適化タスク
- Authors: Manish Shetty, Naman Jain, Jinjian Liu, Vijay Kethanaboyina, Koushik Sen, Ion Stoica,
- Abstract要約: GSOは、高性能ソフトウェアを開発する際の言語モデルの能力を評価するためのベンチマークである。
SWE-Agentsは5%未満の成功率を達成でき、推論時間スケーリングにおいても改善が限られている。
将来の研究を可能にするために、ベンチマークのコードとアーティファクトとエージェントトラジェクトリをリリースします。
- 参考スコア(独自算出の注目度): 19.46051971038257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing high-performance software is a complex task that requires specialized expertise. We introduce GSO, a benchmark for evaluating language models' capabilities in developing high-performance software. We develop an automated pipeline that generates and executes performance tests to analyze repository commit histories to identify 102 challenging optimization tasks across 10 codebases, spanning diverse domains and programming languages. An agent is provided with a codebase and performance test as a precise specification, and tasked to improve the runtime efficiency, which is measured against the expert developer optimization. Our quantitative evaluation reveals that leading SWE-Agents struggle significantly, achieving less than 5% success rate, with limited improvements even with inference-time scaling. Our qualitative analysis identifies key failure modes, including difficulties with low-level languages, practicing lazy optimization strategies, and challenges in accurately localizing bottlenecks. We release the code and artifacts of our benchmark along with agent trajectories to enable future research.
- Abstract(参考訳): ハイパフォーマンスなソフトウェアを開発するのは、専門的な専門知識を必要とする複雑なタスクです。
高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークであるGSOを紹介する。
パフォーマンステストを生成し,レポジトリコミット履歴を分析して10のコードベースにまたがる102の困難な最適化タスクを特定し,さまざまなドメインやプログラミング言語にまたがる自動パイプラインを開発する。
エージェントには、正確な仕様としてコードベースとパフォーマンステストが提供され、専門家の開発者最適化に対して測定されるランタイム効率の改善が義務付けられている。
定量的評価の結果,SWE-Agentsは5%未満の成功率を達成でき,推論時間スケーリングにおいても改善が限られていることが明らかとなった。
定性的分析では、低レベル言語での難易度、遅延最適化戦略の実践、ボトルネックの正確なローカライズにおける課題など、重要な障害モードを特定します。
将来の研究を可能にするために、ベンチマークのコードとアーティファクトとエージェントトラジェクトリをリリースします。
関連論文リスト
- Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。
我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T18:58:31Z) - SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
現在の大規模言語モデル(LLM)ベースのソフトウェアエージェントは、しばしば線形でシーケンシャルなプロセスに従う。
モンテカルロ木探索(MCTS)と自己改善機構を統合したマルチエージェントフレームワークであるSWE-Searchを提案する。
これは、複雑なソフトウェアエンジニアリング環境における自己評価駆動検索技術の可能性を強調している。
論文 参考訳(メタデータ) (2024-10-26T22:45:56Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。