論文の概要: Automated Benchmark Generation for Repository-Level Coding Tasks
- arxiv url: http://arxiv.org/abs/2503.07701v1
- Date: Mon, 10 Mar 2025 17:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:13.722549
- Title: Automated Benchmark Generation for Repository-Level Coding Tasks
- Title(参考訳): リポジトリレベル符号化タスクの自動ベンチマーク生成
- Authors: Konstantinos Vergopoulos, Mark Niklas Müller, Martin Vechev,
- Abstract要約: SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。
i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
- 参考スコア(独自算出の注目度): 7.305342793164905
- License:
- Abstract: Code Agent development is an extremely active research area, where a reliable performance metric is critical for tracking progress and guiding new developments. This demand is underscored by the meteoric rise in popularity of SWE-Bench. This benchmark challenges code agents to generate patches addressing GitHub issues given the full repository as context. The correctness of generated patches is then evaluated by executing a human-written test suite extracted from the repository after the issue's resolution. However, constructing benchmarks like SWE-Bench requires substantial manual effort to set up historically accurate execution environments for testing. Crucially, this severely limits the number of considered repositories, e.g., just 12 for SWE-Bench. Considering so few repositories, selected for their popularity runs the risk of leading to a distributional mismatch, i.e., the measured performance may not be representative of real-world scenarios potentially misguiding development efforts. In this work, we address this challenge and introduce SetUpAgent, a fully automated system capable of historically accurate dependency setup, test execution, and result parsing. Using SetUpAgent, we generate two new datasets: (i) SWEE-Bench an extended version of SWE-Bench encompassing hundreds of repositories, and (ii) SWA-Bench a benchmark focusing on applications rather than libraries. Comparing these datasets to SWE-Bench with respect to their characteristics and code agent performance, we find significant distributional differences, including lower issue description quality and detail level, higher fix complexity, and most importantly up to 40% lower agent success rates.
- Abstract(参考訳): コードエージェント開発は極めて活発な研究領域であり、信頼性の高いパフォーマンス指標が進捗を追跡し、新たな開発を導く上で重要である。
この需要は、SWE-Benchの人気の上昇によって裏付けられている。
このベンチマークでは、完全なリポジトリをコンテキストとして、GitHubの問題に対処するパッチを生成するために、コードエージェントに挑戦する。
生成されたパッチの正しさは、イシューの解決後にリポジトリから抽出された人手によるテストスイートを実行することで評価される。
しかし、SWE-Benchのようなベンチマークを構築するには、テストのために歴史的に正確な実行環境を設定するためにかなりの手作業が必要である。
重要なことに、これはSWE-Benchでは12しか考慮されていないリポジトリの数を大幅に制限する。
それらの人気のために選択されたレポジトリが、分散ミスマッチに繋がるリスクを負うことを考えると、測定されたパフォーマンスは、開発努力を誤解させる可能性のある現実のシナリオを表すものではないかもしれない。
本研究では、この課題に対処し、歴史的に正確な依存性設定、テスト実行、結果解析が可能な完全に自動化されたシステムであるSetUpAgentを紹介する。
SetUpAgentを使って、2つの新しいデータセットを生成します。
(i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張版であり、
(ii) SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
これらのデータセットとSWE-Benchを比較して、それらの特性とコードエージェントのパフォーマンスを比較したところ、問題記述の品質と詳細レベル、修正の複雑さの増大、そして最も重要なのは、エージェントの成功率の最大40%の低下など、大きな分散性の違いが判明した。
関連論文リスト
- RAG-Verus: Repository-Level Program Verification with LLMs using Retrieval Augmented Generation [4.934638689939017]
我々は,複数モジュールリポジトリの証明合成を自動化するために,検索拡張生成とコンテキスト認識を併用するフレームワークであるRagVerusを紹介した。
R RagVerusは、制約付き言語モデル予算の下で、既存のベンチマークのパスレートを3倍にします。
論文 参考訳(メタデータ) (2025-02-07T21:30:37Z) - DI-BENCH: Benchmarking Large Language Models on Dependency Inference with Testable Repositories at Scale [39.92722886613929]
DI-BENCHは、大規模言語モデルの依存性推論能力を評価するために設計された、大規模なベンチマークおよび評価フレームワークである。
ベンチマークでは、Python、C#、Rust、JavaScriptにまたがるテスト環境を備えた581のリポジトリが提供されている。
テキストと実行ベースのメトリクスによる大規模な実験により、現在の最高のパフォーマンスモデルは42.9%の実行パス率しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2025-01-23T14:27:11Z) - Training Software Engineering Agents and Verifiers with SWE-Gym [89.55822534364727]
SWE-Gymは、現実世界のソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための最初の環境である。
SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
論文 参考訳(メタデータ) (2024-12-30T18:15:39Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。
一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。
ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。
一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文 参考訳(メタデータ) (2024-10-16T11:33:57Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - CommitBench: A Benchmark for Commit Message Generation [22.03783968903916]
既存のデータセットはコミット選択の品質など,さまざまな問題を示す。
新しい大規模データセットであるCommitBenchをコンパイルし、データセット作成のベストプラクティスを採用しています。
私たちはCommitBenchを使って既存のモデルを比較し、他のアプローチがソースコードで事前訓練されたTransformerモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-08T09:56:45Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文 参考訳(メタデータ) (2021-09-23T13:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。