Fugu-MT 論文翻訳(概要): FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

論文の概要: FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

arxiv url: http://arxiv.org/abs/2602.10975v1
Date: Wed, 11 Feb 2026 16:06:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-12 21:44:02.099027
Title: FeatureBench: Benchmarking Agentic Coding for Complex Feature Development
Title（参考訳）: FeatureBench: 複雑な機能開発のためのベンチマークエージェントコーディング
Authors: Qixing Zhou, Jiacheng Zhang, Haiyang Wang, Rui Hao, Jiahe Wang, Minghao Han, Yuxue Yang, Shuzhe Wu, Feiyang Pan, Lue Fan, Dandan Tu, Zhaoxiang Zhang,
Abstract要約: FeatureBenchは、エンドツーエンドのフィーチャ指向ソフトウェア開発におけるエージェントコーディングのパフォーマンスを評価するために設計されたベンチマークである。実行ベースの評価プロトコルと、人間の最小限の労力でコードリポジトリからタスクを自動的に引き出す、スケーラブルなテスト駆動メソッドが組み込まれている。実証的な評価により、クロード4.5オプスのような最先端のエージェントモデルがSWEベンチで74.4%の解決率を達成することが明らかになった。
参考スコア（独自算出の注目度）: 42.26354337364403
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Agents powered by large language models (LLMs) are increasingly adopted in the software industry, contributing code as collaborators or even autonomous developers. As their presence grows, it becomes important to assess the current boundaries of their coding abilities. Existing agentic coding benchmarks, however, cover a limited task scope, e.g., bug fixing within a single pull request (PR), and often rely on non-executable evaluations or lack an automated approach for continually updating the evaluation coverage. To address such issues, we propose FeatureBench, a benchmark designed to evaluate agentic coding performance in end-to-end, feature-oriented software development. FeatureBench incorporates an execution-based evaluation protocol and a scalable test-driven method that automatically derives tasks from code repositories with minimal human effort. By tracing from unit tests along a dependency graph, our approach can identify feature-level coding tasks spanning multiple commits and PRs scattered across the development timeline, while ensuring the proper functioning of other features after the separation. Using this framework, we curated 200 challenging evaluation tasks and 3825 executable environments from 24 open-source repositories in the first version of our benchmark. Empirical evaluation reveals that the state-of-the-art agentic model, such as Claude 4.5 Opus, which achieves a 74.4% resolved rate on SWE-bench, succeeds on only 11.0% of tasks, opening new opportunities for advancing agentic coding. Moreover, benefiting from our automated task collection toolkit, FeatureBench can be easily scaled and updated over time to mitigate data leakage. The inherent verifiability of constructed environments also makes our method potentially valuable for agent training.
Abstract（参考訳）: 大規模言語モデル(LLM)を利用したエージェントは、ソフトウェア業界でますます採用され、協力者や自律的な開発者としてコードを提供しています。それらの存在が大きくなるにつれて、コーディング能力の現在の限界を評価することが重要になる。しかし、既存のエージェントコーディングベンチマークでは、単一のプルリクエスト(PR)内のバグ修正など、限られたタスク範囲をカバーしており、多くの場合、実行不可能な評価に依存したり、評価カバレッジを継続的に更新するための自動化アプローチが欠如している。このような問題に対処するため,我々は,エンドツーエンドの機能指向ソフトウェア開発におけるエージェントコーディング性能を評価するためのベンチマークであるFeatureBenchを提案する。 FeatureBenchには、実行ベースの評価プロトコルと、人間の最小限の労力でコードリポジトリからタスクを自動的に引き出すスケーラブルなテスト駆動メソッドが組み込まれている。依存関係グラフに沿って単体テストからトレースすることで、開発タイムラインに散在する複数のコミットやPRにまたがる機能レベルのコーディングタスクを特定できると同時に、分離後の他の機能の適切な機能を保証することができる。このフレームワークを使用して、ベンチマークの最初のバージョンで、200の挑戦的な評価タスクと、24のオープンソースリポジトリから3825の実行可能な環境をキュレートしました。実証的な評価によると、SWEベンチで74.4%の解決率を達成したClaude 4.5 Opusのような最先端のエージェントモデルがわずか11.0%のタスクで成功し、エージェントコーディングを進める新たな機会が開かれた。さらに、自動タスク収集ツールキットの恩恵により、FeatureBenchは時間とともに簡単にスケールしたり、更新したりすることで、データの漏洩を軽減できます。構築された環境の本質的な検証可能性も,エージェント訓練に有用である可能性が示唆された。

関連論文リスト

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration [7.89414068452646]
SWE-CIは継続的インテグレーションループ上に構築された最初のリポジトリレベルのベンチマークである。コード生成のための評価パラダイムを静的・短期的テキスト機能的正当性から動的・長期的テキスト保守性へシフトすることを目的としている。
論文参考訳（メタデータ） (2026-03-04T08:20:25Z)
ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文参考訳（メタデータ） (2026-01-16T08:23:52Z)
AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts [35.52607495764441]
大規模言語モデル(LLM)に基づく自律エージェントは、経済的生産に大きく貢献する多面的能力を示す。我々は、毎日のAI使用から派生したベンチマークであるAgentBenchを紹介し、32の現実シナリオにわたる6つのコアエージェント能力を評価した。これらのシナリオでは、平均90のツールコール、100万のトークン、解決に必要な実行時間が必要です。
論文参考訳（メタデータ） (2026-01-16T07:22:20Z)
NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文参考訳（メタデータ） (2025-12-14T15:12:13Z)
LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文参考訳（メタデータ） (2025-11-17T23:57:24Z)
GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging [41.754784344572286]
実際のシナリオでコードエージェントを評価するベンチマークであるGitTaskBenchをリリースしています。各タスクは、自動化された人為的な評価ハーネスと関連するリポジトリをペアリングする。また,エージェント性能の経済的利益を定量化するためのα値指標を提案する。
論文参考訳（メタデータ） (2025-08-26T12:48:05Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation [26.14778133391999]
FEA-Benchは、大規模な言語モデルがコードリポジトリ内でインクリメンタルな開発を行う能力を評価するために設計されたベンチマークである。 83のGitHubリポジトリからのプルリクエストを収集し、ルールベースとインテントベースのフィルタリングを使用して、新機能開発にフォーカスしたタスクインスタンスを構築します。
論文参考訳（メタデータ） (2025-03-09T16:11:57Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。