論文の概要: RoadmapBench: Evaluating Long-Horizon Agentic Software Development Across Version Upgrades
- arxiv url: http://arxiv.org/abs/2605.15846v2
- Date: Tue, 19 May 2026 08:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.376184
- Title: RoadmapBench: Evaluating Long-Horizon Agentic Software Development Across Version Upgrades
- Title(参考訳): RoadmapBench: バージョンアップにおける長期エージェントソフトウェア開発の評価
- Authors: Xinbo Xu, Ruihan Yang, Haiyang Shen, Wendong Xu, Bofei Gao, Ruoyu Wu, Kean Shi, Weichu Xie, Xuanzhong Chen, Ming Wu, Jason Zeng, Michael Heinrich, Elvis Zhang, Liang Chen, Kuan Li, Baobao Chang,
- Abstract要約: RoadmapBenchは、115の長い水平コーディングタスクのベンチマークで、実際のオープンソースバージョンをアップグレードします。
各タスクはエージェントをソースバージョンコードスナップショットに配置し、マルチターゲットのロードマップ命令を提供する。
最強のクロード=オプス-4.7でも39.1%のタスクしか解決していないのに対し、最も弱いイテレーションは5.2%しか達成していない。
- 参考スコア(独自算出の注目度): 32.04167306620878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coding agents are increasingly deployed in real software development, where a single version iteration requires months of coordinated work across many files. However, most existing benchmarks focus predominantly on single-issue bug fixes from Python repositories, with coarse pass/fail evaluation outcomes, and thus fail to capture long-horizon, multi-target development at real engineering scale. To address this gap, we present RoadmapBench, a benchmark of 115 long-horizon coding tasks grounded in real open-source version upgrades across 17 repositories and 5 programming languages. Each task places the agent on a source-version code snapshot and provides a multi-target roadmap instruction requiring it to implement the functionality introduced in the target version, with a median modification of 3,700 lines across 51 files. We conduct a systematic evaluation on thirteen frontier models and find that even the strongest, Claude-Opus-4.7, resolves only 39.1% of tasks, while the weakest achieves merely 5.2%, in stark contrast to existing bug-fix benchmarks, suggesting that long-horizon software development remains a largely unsolved problem.
- Abstract(参考訳): コーディングエージェントは、実際のソフトウェア開発にますますデプロイされ、単一のバージョンイテレーションでは、多くのファイルにまたがって数ヶ月の協調作業が必要になる。
しかし、既存のベンチマークのほとんどはPythonリポジトリの単一問題バグ修正に重点を置いており、粗いパス/フェイル評価の結果が得られている。
このギャップに対処するため、我々は17のリポジトリと5つのプログラミング言語で実際のオープンソースバージョンをアップグレードした、115の長期コーディングタスクのベンチマークであるRoadmapBenchを紹介した。
各タスクはエージェントをソースバージョンコードスナップショットに配置し、ターゲットバージョンで導入された機能を実装するために必要なマルチターゲットのロードマップ命令を提供する。
我々は13のフロンティアモデルに対して体系的な評価を行い、最強のClaude-Opus-4.7でさえタスクの39.1%しか解決していないのに対して、最も弱いものは既存のバグフィックスベンチマークとは対照的に5.2%しか達成していないことを発見した。
関連論文リスト
- ProgramBench: Can Language Models Rebuild Programs From Scratch? [59.40748183470308]
ProgramBenchは、ソフトウェアエンジニアリングエージェントがソフトウェアをホリシックに開発する能力を測定する。
エンドツーエンドの動作テストはエージェント駆動ファジィによって生成される。
モデルは、人間が書いたコードと大きく異なるモノリシックでシングルファイルの実装を好む。
論文 参考訳(メタデータ) (2026-05-05T09:17:02Z) - MobileDev-Bench: A Comprehensive Benchmark for Evaluating Language Models on Mobile Application Development [1.4302803674538154]
Android Native(Java/Kotlin)、React Native(TypeScript)、Flutter(Dart)にまたがる18のプロダクションモバイルアプリケーションから収集された384の現実世界の課題解決タスクからなるベンチマークであるMobileDev-Benchを紹介した。
各タスクは、実行可能テストパッチと開発者が報告した問題にペアリングし、モバイルビルド環境内でモデル生成の修正を完全に自動検証することを可能にする。
GPT-5.2, Claude Sonnet 4.5, Gemini Flash 2.5, Qwen3-Coder の4つの最先端コード対応LCMの評価
論文 参考訳(メタデータ) (2026-03-26T02:31:03Z) - SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios [6.776894728701934]
AIコーディングエージェントの既存のベンチマークでは、バグの修正や小さな機能の実装など、独立した単一課題のタスクに重点を置いている。
SWE-EVO(SWE-EVO)は、長期的ソフトウェア進化課題におけるエージェントの評価を行うベンチマークである。
ツールには48の進化タスクが含まれており、エージェントは平均21ファイルにまたがる複数ステップの修正を行う必要がある。
論文 参考訳(メタデータ) (2025-12-20T19:08:15Z) - NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。
符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文 参考訳(メタデータ) (2025-12-14T15:12:13Z) - The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution [86.4588675093384]
Toolathlonは、多様なアプリやツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークである。
このベンチマークには、手動でソースまたはクラフトされたタスクが108つ含まれており、平均20回以上にわたって複数のアプリと対話する必要がある。
Toolathlonは、より有能な言語エージェントを現実の長期タスク実行のために開発することを期待しています。
論文 参考訳(メタデータ) (2025-10-29T17:32:49Z) - SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? [13.645265361867565]
SWE-Bench ProはSWE-BENCH [25]のベストプラクティスに基づいていますが、現実的で複雑でエンタープライズレベルの問題を捉えるように設計されています。
ベンチマークはパブリックセットに分割され、11のリポジトリ、12のリポジトリのホールドアウトセット、18のプロプライエタリリポジトリの商用セットからソースされた問題にオープンアクセスされる。
広範に使用されている符号化モデルの評価では,SWE-Bench PROの性能は25%以下(Pass@1)であり,GPT-5は23.3%と最高スコアである。
論文 参考訳(メタデータ) (2025-09-21T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。