論文の概要: GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git
- arxiv url: http://arxiv.org/abs/2505.22583v1
- Date: Wed, 28 May 2025 16:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.748028
- Title: GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git
- Title(参考訳): GitGoodBench: Gitのエージェントパフォーマンスを評価するための新しいベンチマーク
- Authors: Tobias Lindenbauer, Egor Bogomolov, Yaroslav Zharov,
- Abstract要約: GitGoodBenchは、バージョン管理システム(VCS)タスク上でAIエージェントのパフォーマンスを評価するための新しいベンチマークである。
私たちのベンチマークでは、オープンソースのPython、Java、Kotlinリポジトリから抽出された3つのコアGitシナリオについて取り上げています。
我々は、カスタムツールを備えたGPT-4oを用いて、ベンチマークのプロトタイプバージョン上でベースライン性能を確立し、全体的な21.1%の解決率を達成する。
- 参考スコア(独自算出の注目度): 0.8397730500554048
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Benchmarks for Software Engineering (SE) AI agents, most notably SWE-bench, have catalyzed progress in programming capabilities of AI agents. However, they overlook critical developer workflows such as Version Control System (VCS) operations. To address this issue, we present GitGoodBench, a novel benchmark for evaluating AI agent performance on VCS tasks. GitGoodBench covers three core Git scenarios extracted from permissive open-source Python, Java, and Kotlin repositories. Our benchmark provides three datasets: a comprehensive evaluation suite (900 samples), a rapid prototyping version (120 samples), and a training corpus (17,469 samples). We establish baseline performance on the prototyping version of our benchmark using GPT-4o equipped with custom tools, achieving a 21.11% solve rate overall. We expect GitGoodBench to serve as a crucial stepping stone toward truly comprehensive SE agents that go beyond mere programming.
- Abstract(参考訳): ソフトウェアエンジニアリング(SE)AIエージェントのベンチマーク、特にSWE-benchは、AIエージェントのプログラミング能力の進歩を触媒している。
しかし、彼らはバージョン管理システム(VCS)操作のような重要な開発者ワークフローを見落としている。
この問題に対処するため,我々は,VCSタスク上でAIエージェントのパフォーマンスを評価するための新しいベンチマークであるGitGoodBenchを紹介する。
GitGoodBenchは、寛容なオープンソースのPython、Java、Kotlinリポジトリから抽出された3つのコアGitシナリオをカバーしている。
ベンチマークでは、総合的な評価スイート(900サンプル)、高速なプロトタイピングバージョン(120サンプル)、トレーニングコーパス(17,469サンプル)の3つのデータセットを提供しています。
我々は、カスタムツールを備えたGPT-4oを用いて、ベンチマークのプロトタイプバージョン上でベースライン性能を確立し、全体的な21.1%の解決率を達成する。
GitGoodBenchは、単なるプログラミング以上の、真に包括的なSEエージェントへの重要な一歩として機能することを期待しています。
関連論文リスト
- RepoMod-Bench: A Benchmark for Code Repository Modernization via Implementation-Agnostic Testing [1.4069797812477614]
本稿では,実装に依存しない評価パラダイムに基づく,リポジトリレベルのコードモダナイゼーションのためのベンチマークフレームワークを紹介する。
RepoMod-Benchは8つの言語にまたがる、標準化されたインターフェースを備えた21の現実世界リポジトリのベンチマークである。
ベンチマークには1.6万行のコード(LOC)と11,616のテストが含まれており、リポジトリのサイズは14~211KLOCである。
論文 参考訳(メタデータ) (2026-02-26T01:25:00Z) - FeatureBench: Benchmarking Agentic Coding for Complex Feature Development [42.26354337364403]
FeatureBenchは、エンドツーエンドのフィーチャ指向ソフトウェア開発におけるエージェントコーディングのパフォーマンスを評価するために設計されたベンチマークである。
実行ベースの評価プロトコルと、人間の最小限の労力でコードリポジトリからタスクを自動的に引き出す、スケーラブルなテスト駆動メソッドが組み込まれている。
実証的な評価により、クロード4.5オプスのような最先端のエージェントモデルがSWEベンチで74.4%の解決率を達成することが明らかになった。
論文 参考訳(メタデータ) (2026-02-11T16:06:32Z) - ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development [49.63491095660809]
ProjDevBenchはエンドツーエンドのベンチマークで、コーディングエージェントにプロジェクト要件を提供し、その結果のリポジトリを評価する。
概念指向タスクと実世界のアプリケーションシナリオの両方をカバーし、8つのカテゴリにまたがる20のプログラミング問題をキュレートします。
エージェントは基本的な機能を扱うが、複雑なシステム設計、時間最適化、リソース管理に苦労する。
論文 参考訳(メタデータ) (2026-02-02T05:17:23Z) - RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository [52.98970048197381]
RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。
18のドメインと11のフレームワークに106のリポジトリ(60のPython、46のJava)があり、1,258のAPIエンドポイントと2,335のテストケースが検証されている。
その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2026-01-20T13:19:20Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories [2.951332247539421]
オープンソースGitHubプロジェクトからリポジトリレベルのコーディングタスクを生成する自動フレームワークであるSWE-Bench++を紹介します。
合成アプローチとは異なり、パイプラインは11言語にわたるバグ修正と機能要求の両方をカバーするために、ライブプルリクエストを収集します。
最初のベンチマークは11言語にわたる3,971リポジトリから11,133インスタンスで構成されています。
論文 参考訳(メタデータ) (2025-12-19T10:16:51Z) - SWE-Sharp-Bench: A Reproducible Benchmark for C# Software Engineering Tasks [7.04771396439844]
SWE-Sharp-Benchは、C#のソフトウェアエンジニアリングベンチマークで、17のリポジトリから150のインスタンスが提供されている。
SWE-Bench VerifiedのPythonタスクの70%は解決されているが、我々のC#タスクの40%だけが解決されている。
私たちはSWE-Sharp-Benchとキュレーションパイプライン全体をオープンソースにしています。
論文 参考訳(メタデータ) (2025-11-04T08:16:23Z) - SCUBA: Salesforce Computer Use Benchmark [63.66753028386581]
SCUBAは、Salesforceプラットフォーム内の顧客関係管理(CRM)上のコンピュータ利用エージェントを評価するために設計されたベンチマークである。
SCUBAには、実際のユーザインタビューから派生した300のタスクインスタンスが含まれており、3つの主要なペルソナ、プラットフォーム管理者、セールス担当者、サービスエージェントで構成されている。
ゼロショット設定とデモ拡張設定の両方で、多様なエージェントのセットをベンチマークします。
論文 参考訳(メタデータ) (2025-09-30T16:48:49Z) - Git Context Controller: Manage the Context of LLM-based Agents like Git [6.521644491529639]
大きな言語モデル(LLM)ベースのエージェントは、内部推論と外部ツールの使用をインターリーブすることによって、印象的な機能を示している。
ソフトウェアバージョン管理システムにインスパイアされた構造化コンテキスト管理フレームワークであるGit-Context-Controller(GCC)を紹介した。
自己複製のケーススタディでは、GCCを増強したエージェントが新しいCLIエージェントをスクラッチから作り、40.7タスクの解決を実現した。
論文 参考訳(メタデータ) (2025-07-30T08:01:45Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - UTBoost: Rigorous Evaluation of Coding Agents on SWE-Bench [8.00058513405915]
LLM駆動のテストケースジェネレータであるUTGeneratorを導入し、実世界のPythonプロジェクトのテストケースを生成する。
UTGenerator上に構築されたUTBoostは、テストケース拡張のための包括的なフレームワークである。
評価では,テストケースが不十分な36のタスクインスタンスを同定し,元のSWE Benchに渡された345の誤ったパッチを誤ってラベル付けした。
論文 参考訳(メタデータ) (2025-06-10T22:56:49Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents [49.73885480071402]
我々はSWE-PolyBenchを紹介した。SWE-PolyBenchは、コードエージェントのリポジトリレベル、実行ベース評価のための新しいベンチマークである。
SWE-PolyBenchには21のリポジトリから2110のインスタンスが含まれており、Java(165)、JavaScript(1017)、TypeScript(729)、Python(199)のタスクが含まれており、バグ修正、機能追加、コードを含んでいる。
実験の結果,現在のエージェントは言語間で不均一なパフォーマンスを示し,複雑な問題に対処しつつ,単純なタスクで高いパフォーマンスを示すことがわかった。
論文 参考訳(メタデータ) (2025-04-11T17:08:02Z) - Automated Benchmark Generation for Repository-Level Coding Tasks [7.305342793164905]
SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。
i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
論文 参考訳(メタデータ) (2025-03-10T17:42:49Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。
一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。
ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。
一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文 参考訳(メタデータ) (2024-10-16T11:33:57Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents [106.87436596397816]
大規模言語モデル(LLM)エージェントは、現実世界のソフトウェア工学(SWE)問題を解決する大きな可能性を示している。
専門知識を活かしたフレームワークであるDEI(Diversity Empowered Intelligence)を提案する。
実験により、DEAが指導するエージェント委員会が、最高のエージェントのパフォーマンスを大きなマージンで上回ることが可能であることが示されている。
論文 参考訳(メタデータ) (2024-08-13T17:50:28Z) - GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension [81.44231422624055]
さまざまなタスクを実行できる外部ツールを備えた大規模言語モデル(LLM)に焦点が当てられている。
本稿では,GitHubから自動ツール拡張を実現するエージェントであるGitAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。