論文の概要: GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging
- arxiv url: http://arxiv.org/abs/2508.18993v2
- Date: Sun, 14 Sep 2025 17:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.37258
- Title: GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging
- Title(参考訳): GitTaskBench: コードリポジトリのレバレッジによる実世界のタスク解決のためのベンチマーク
- Authors: Ziyi Ni, Huacan Wang, Shuo Zhang, Shuo Lu, Ziyang He, Wang You, Zhenheng Tang, Yuntao Du, Bill Sun, Hongzhang Liu, Sen Hu, Ronghao Chen, Bo Li, Xin Li, Chen Hu, Binxing Jiao, Daxin Jiang, Pin Lyu,
- Abstract要約: 実際のシナリオでコードエージェントを評価するベンチマークであるGitTaskBenchをリリースしています。
各タスクは、自動化された人為的な評価ハーネスと関連するリポジトリをペアリングする。
また,エージェント性能の経済的利益を定量化するためのα値指標を提案する。
- 参考スコア(独自算出の注目度): 41.754784344572286
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Beyond scratch coding, exploiting large-scale code repositories (e.g., GitHub) for practical tasks is vital in real-world software development, yet current benchmarks rarely evaluate code agents in such authentic, workflow-driven scenarios. To bridge this gap, we introduce GitTaskBench, a benchmark designed to systematically assess this capability via 54 realistic tasks across 7 modalities and 7 domains. Each task pairs a relevant repository with an automated, human-curated evaluation harness specifying practical success criteria. Beyond measuring execution and task success, we also propose the alpha-value metric to quantify the economic benefit of agent performance, which integrates task success rates, token cost, and average developer salaries. Experiments across three state-of-the-art agent frameworks with multiple advanced LLMs show that leveraging code repositories for complex task solving remains challenging: even the best-performing system, OpenHands+Claude 3.7, solves only 48.15% of tasks (recent progress has pushed the frontier further, with RepoMaster+Claude 3.5 achieving a new record of 62.96%). Error analysis attributes over half of failures to seemingly mundane yet critical steps like environment setup and dependency resolution, highlighting the need for more robust workflow management and increased timeout preparedness. By releasing GitTaskBench, we aim to drive progress and attention toward repository-aware code reasoning, execution, and deployment -- moving agents closer to solving complex, end-to-end real-world tasks. The benchmark and code are open-sourced at https://github.com/QuantaAlpha/GitTaskBench.
- Abstract(参考訳): スクラッチコーディング以外にも、実践的なタスクに大規模なコードリポジトリ(GitHubなど)を活用することは、現実のソフトウェア開発において不可欠だが、現在のベンチマークでは、そのような真正なワークフロー駆動のシナリオでコードエージェントを評価することはめったにない。
このギャップを埋めるために、GitTaskBenchを紹介します。これは、7つのモダリティと7つのドメインにわたる54の現実的なタスクを通じて、この機能を体系的に評価するように設計されたベンチマークです。
各タスクは、実際の成功基準を指定する自動化された人為的な評価手法と関連するリポジトリをペアリングする。
また, タスク成功率, トークンコスト, 平均開発給与を統合し, エージェントパフォーマンスの経済的利益を定量化するためのα値指標を提案する。
複数の高度なLCMを持つ最先端の3つのエージェントフレームワークの実験では、複雑なタスク解決にコードリポジトリを活用することは依然として難しいことが示されている。最高のパフォーマンスシステムであるOpenHands+Claude 3.7でさえ、わずか48.15%のタスクしか解決していない(最近の進歩により、RepoMaster+Claude 3.5が62.96%の新記録を達成した)。
エラー解析は、環境のセットアップや依存関係の解決といった、日常的で重要なステップのように見える障害の半分以上を占めており、より堅牢なワークフロー管理とタイムアウトの準備の必要性を強調している。
GitTaskBenchをリリースすることで、リポジトリを意識したコード推論、実行、デプロイメントへの進捗と注意を喚起し、エージェントを複雑なエンドツーエンドの現実世界タスクの解決に近づけることを目指しています。
ベンチマークとコードはhttps://github.com/QuantaAlpha/GitTaskBench.comで公開されている。
関連論文リスト
- SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文 参考訳(メタデータ) (2025-07-11T22:45:07Z) - RefactorBench: Evaluating Stateful Reasoning in Language Agents Through Code [7.156224931977546]
RefactorBenchは、人気のあるオープンソースリポジトリで100の大規模な手作りのマルチファイルタスクからなるベンチマークである。
ベースラインは、現在のLMエージェントが単純な構成タスクで苦労していることを明らかにし、ベース命令で22%のタスクしか解決していない。
状態表現の条件にベースラインエージェントを適用することにより、RefactorBenchタスクの解決において43.9%の改善が達成される。
論文 参考訳(メタデータ) (2025-03-10T20:23:24Z) - Automated Benchmark Generation for Repository-Level Coding Tasks [7.305342793164905]
SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。
i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
論文 参考訳(メタデータ) (2025-03-10T17:42:49Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。