論文の概要: GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging
- arxiv url: http://arxiv.org/abs/2508.18993v2
- Date: Sun, 14 Sep 2025 17:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.37258
- Title: GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging
- Title(参考訳): GitTaskBench: コードリポジトリのレバレッジによる実世界のタスク解決のためのベンチマーク
- Authors: Ziyi Ni, Huacan Wang, Shuo Zhang, Shuo Lu, Ziyang He, Wang You, Zhenheng Tang, Yuntao Du, Bill Sun, Hongzhang Liu, Sen Hu, Ronghao Chen, Bo Li, Xin Li, Chen Hu, Binxing Jiao, Daxin Jiang, Pin Lyu,
- Abstract要約: 実際のシナリオでコードエージェントを評価するベンチマークであるGitTaskBenchをリリースしています。
各タスクは、自動化された人為的な評価ハーネスと関連するリポジトリをペアリングする。
また,エージェント性能の経済的利益を定量化するためのα値指標を提案する。
- 参考スコア(独自算出の注目度): 41.754784344572286
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Beyond scratch coding, exploiting large-scale code repositories (e.g., GitHub) for practical tasks is vital in real-world software development, yet current benchmarks rarely evaluate code agents in such authentic, workflow-driven scenarios. To bridge this gap, we introduce GitTaskBench, a benchmark designed to systematically assess this capability via 54 realistic tasks across 7 modalities and 7 domains. Each task pairs a relevant repository with an automated, human-curated evaluation harness specifying practical success criteria. Beyond measuring execution and task success, we also propose the alpha-value metric to quantify the economic benefit of agent performance, which integrates task success rates, token cost, and average developer salaries. Experiments across three state-of-the-art agent frameworks with multiple advanced LLMs show that leveraging code repositories for complex task solving remains challenging: even the best-performing system, OpenHands+Claude 3.7, solves only 48.15% of tasks (recent progress has pushed the frontier further, with RepoMaster+Claude 3.5 achieving a new record of 62.96%). Error analysis attributes over half of failures to seemingly mundane yet critical steps like environment setup and dependency resolution, highlighting the need for more robust workflow management and increased timeout preparedness. By releasing GitTaskBench, we aim to drive progress and attention toward repository-aware code reasoning, execution, and deployment -- moving agents closer to solving complex, end-to-end real-world tasks. The benchmark and code are open-sourced at https://github.com/QuantaAlpha/GitTaskBench.
- Abstract(参考訳): スクラッチコーディング以外にも、実践的なタスクに大規模なコードリポジトリ(GitHubなど)を活用することは、現実のソフトウェア開発において不可欠だが、現在のベンチマークでは、そのような真正なワークフロー駆動のシナリオでコードエージェントを評価することはめったにない。
このギャップを埋めるために、GitTaskBenchを紹介します。これは、7つのモダリティと7つのドメインにわたる54の現実的なタスクを通じて、この機能を体系的に評価するように設計されたベンチマークです。
各タスクは、実際の成功基準を指定する自動化された人為的な評価手法と関連するリポジトリをペアリングする。
また, タスク成功率, トークンコスト, 平均開発給与を統合し, エージェントパフォーマンスの経済的利益を定量化するためのα値指標を提案する。
複数の高度なLCMを持つ最先端の3つのエージェントフレームワークの実験では、複雑なタスク解決にコードリポジトリを活用することは依然として難しいことが示されている。最高のパフォーマンスシステムであるOpenHands+Claude 3.7でさえ、わずか48.15%のタスクしか解決していない(最近の進歩により、RepoMaster+Claude 3.5が62.96%の新記録を達成した)。
エラー解析は、環境のセットアップや依存関係の解決といった、日常的で重要なステップのように見える障害の半分以上を占めており、より堅牢なワークフロー管理とタイムアウトの準備の必要性を強調している。
GitTaskBenchをリリースすることで、リポジトリを意識したコード推論、実行、デプロイメントへの進捗と注意を喚起し、エージェントを複雑なエンドツーエンドの現実世界タスクの解決に近づけることを目指しています。
ベンチマークとコードはhttps://github.com/QuantaAlpha/GitTaskBench.comで公開されている。
関連論文リスト
- Hybrid-Gym: Training Coding Agents to Generalize Across Tasks [59.95803522351185]
本稿では,多種多様なタスク間で共有される伝達可能なスキルについて述べる。
本稿では,スケーラブルな合成タスクからなる学習環境であるHybrid-Gymを提案する。
実験により、我々の合成タスクで訓練されたエージェントが、様々な現実世界のタスクを効果的に一般化できることが示されている。
論文 参考訳(メタデータ) (2026-02-18T19:30:55Z) - FeatureBench: Benchmarking Agentic Coding for Complex Feature Development [42.26354337364403]
FeatureBenchは、エンドツーエンドのフィーチャ指向ソフトウェア開発におけるエージェントコーディングのパフォーマンスを評価するために設計されたベンチマークである。
実行ベースの評価プロトコルと、人間の最小限の労力でコードリポジトリからタスクを自動的に引き出す、スケーラブルなテスト駆動メソッドが組み込まれている。
実証的な評価により、クロード4.5オプスのような最先端のエージェントモデルがSWEベンチで74.4%の解決率を達成することが明らかになった。
論文 参考訳(メタデータ) (2026-02-11T16:06:32Z) - ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development [49.63491095660809]
ProjDevBenchはエンドツーエンドのベンチマークで、コーディングエージェントにプロジェクト要件を提供し、その結果のリポジトリを評価する。
概念指向タスクと実世界のアプリケーションシナリオの両方をカバーし、8つのカテゴリにまたがる20のプログラミング問題をキュレートします。
エージェントは基本的な機能を扱うが、複雑なシステム設計、時間最適化、リソース管理に苦労する。
論文 参考訳(メタデータ) (2026-02-02T05:17:23Z) - Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。
ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。
将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (2026-01-17T01:29:30Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - Towards Reliable Code-as-Policies: A Neuro-Symbolic Framework for Embodied Task Planning [25.860785629018356]
本稿では,コード生成時の明示的なシンボル検証と対話的検証処理を組み込んだ,ニューロシンボリックなタスク計画フレームワークを提案する。
我々はRLBenchと動的に部分的に観測可能なシナリオにわたる実環境設定のフレームワークを評価した。
論文 参考訳(メタデータ) (2025-10-24T10:01:08Z) - SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文 参考訳(メタデータ) (2025-07-11T22:45:07Z) - RefactorBench: Evaluating Stateful Reasoning in Language Agents Through Code [7.156224931977546]
RefactorBenchは、人気のあるオープンソースリポジトリで100の大規模な手作りのマルチファイルタスクからなるベンチマークである。
ベースラインは、現在のLMエージェントが単純な構成タスクで苦労していることを明らかにし、ベース命令で22%のタスクしか解決していない。
状態表現の条件にベースラインエージェントを適用することにより、RefactorBenchタスクの解決において43.9%の改善が達成される。
論文 参考訳(メタデータ) (2025-03-10T20:23:24Z) - Automated Benchmark Generation for Repository-Level Coding Tasks [7.305342793164905]
SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。
i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
論文 参考訳(メタデータ) (2025-03-10T17:42:49Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。