Fugu-MT 論文翻訳(概要): NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

論文の概要: NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

arxiv url: http://arxiv.org/abs/2512.12730v1
Date: Sun, 14 Dec 2025 15:12:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-16 17:54:56.404434
Title: NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents
Title（参考訳）: NL2Repo-Bench: 符号化剤の長期リポジトリ生成評価に向けて
Authors: Jingzhe Ding, Shengda Long, Changxin Pu, Huan Zhou, Hongwan Gao, Xiang Gao, Chao He, Yue Hou, Fei Hu, Zhaojian Li, Weiran Shi, Zaiyuan Wang, Daoguang Zan, Chenchen Zhang, Xiaoxu Zhang, Qizhi Chen, Xianfu Cheng, Bo Deng, Qingshui Gu, Kai Hua, Juntao Lin, Pai Liu, Mingchen Li, Xuanguang Pan, Zifan Peng, Yujia Qin, Yong Shan, Zhewen Tan, Weihao Xie, Zihan Wang, Yishuo Yuan, Jiayu Zhang, Enduo Zhao, Yunfei Zhao, He Zhu, Chenyang Zou, Ming Ding, Jianpeng Jiao, Jiaheng Liu, Minghao Liu, Qian Liu, Chongyao Tao, Jian Yang, Tong Yang, Zhaoxiang Zhang, Xinjie Chen, Wenhao Huang, Ge Zhang,
Abstract要約: 既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
参考スコア（独自算出の注目度）: 79.29376673236142
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in coding agents suggest rapid progress toward autonomous software development, yet existing benchmarks fail to rigorously evaluate the long-horizon capabilities required to build complete software systems. Most prior evaluations focus on localized code generation, scaffolded completion, or short-term repair tasks, leaving open the question of whether agents can sustain coherent reasoning, planning, and execution over the extended horizons demanded by real-world repository construction. To address this gap, we present NL2Repo Bench, a benchmark explicitly designed to evaluate the long-horizon repository generation ability of coding agents. Given only a single natural-language requirements document and an empty workspace, agents must autonomously design the architecture, manage dependencies, implement multi-module logic, and produce a fully installable Python library. Our experiments across state-of-the-art open- and closed-source models reveal that long-horizon repository generation remains largely unsolved: even the strongest agents achieve below 40% average test pass rates and rarely complete an entire repository correctly. Detailed analysis uncovers fundamental long-horizon failure modes, including premature termination, loss of global coherence, fragile cross-file dependencies, and inadequate planning over hundreds of interaction steps. NL2Repo Bench establishes a rigorous, verifiable testbed for measuring sustained agentic competence and highlights long-horizon reasoning as a central bottleneck for the next generation of autonomous coding agents.
Abstract（参考訳）: コーディングエージェントの最近の進歩は、自律的ソフトウェア開発への急速な進歩を示唆しているが、既存のベンチマークでは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗している。これまでのほとんどの評価は、ローカライズされたコード生成、足場付き完了、短期的な修復作業に焦点を当てており、エージェントが現実世界のリポジトリ構築によって要求される拡張された地平線上で一貫性のある推論、計画、実行を維持できるかどうかという疑問を残している。このギャップに対処するために、コーディングエージェントの長期リポジトリ生成能力を評価するために明示的に設計されたベンチマークであるNL2Repo Benchを提案する。単一の自然言語要求ドキュメントと空のワークスペースしか持たないため、エージェントはアーキテクチャを自律的に設計し、依存関係を管理し、マルチモジュールロジックを実装し、完全にインストール可能なPythonライブラリを生成する必要がある。最先端のオープンソースモデルとクローズドソースモデルによる我々の実験は、長期のリポジトリ生成が未解決のままであることを示している。詳細な分析では、未熟な終了、グローバルコヒーレンスの喪失、脆弱なファイル間の依存関係、数百のインタラクションステップに対する計画の不十分など、基本的な長期的障害モードが明らかになった。 NL2Repo Benchは、持続するエージェント能力を測定するための厳格で検証可能なテストベッドを確立し、次世代の自律型コーディングエージェントの中心的ボトルネックとして長期水平推論を強調している。

関連論文リスト

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration [7.89414068452646]
SWE-CIは継続的インテグレーションループ上に構築された最初のリポジトリレベルのベンチマークである。コード生成のための評価パラダイムを静的・短期的テキスト機能的正当性から動的・長期的テキスト保守性へシフトすることを目的としている。
論文参考訳（メタデータ） (2026-03-04T08:20:25Z)
LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces [65.11019654023978]
LongCLI-Benchは、長期にわたる現実的なタスクにまたがるエージェント能力を評価するために設計されたベンチマークである。私たちは、1000以上のコンピュータサイエンスの課題と現実世界のタスクから、20の高品質で長い水平タスクをキュレートしました。実験によると、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成する。
論文参考訳（メタデータ） (2026-02-15T23:12:57Z)
ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文参考訳（メタデータ） (2026-01-16T08:23:52Z)
InfiAgent: An Infinite-Horizon Framework for General-Purpose Autonomous Agents [36.740230738304525]
InfiAgentは、タスクの持続時間に関係なく、エージェントの推論コンテキストを厳密に拘束する。 20Bのオープンソースモデルを持つInfiAgentは、より大きなプロプライエタリなシステムと競合する。
論文参考訳（メタデータ） (2026-01-06T17:35:57Z)
Towards Realistic Project-Level Code Generation via Multi-Agent Collaboration and Semantic Architecture Modeling [7.753074942497876]
CodeProjectEvalは、12.7ファイルと2,388.6行のタスクを持つ18の現実世界リポジトリから構築されたプロジェクトレベルのコード生成データセットである。プロジェクトをアーキテクチャ設計、スケルトン生成、コードフィリングステージに分解するマルチエージェントフレームワークであるProjectGenを提案する。実験によると、ProjectGenは、52/124のテストケースを小さなプロジェクトレベルのコード生成データセットDevBenchに渡すことで、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-11-05T12:12:35Z)
Retrieval-Augmented Code Generation: A Survey with Focus on Repository-Level Approaches [6.740646039135986]
Retrieval-Augmented Generation (RAG) は、LLMと外部検索機構を統合する強力なパラダイムとして登場した。リポジトリレベルのアプローチを重視したRACG(Retrieval-Augmented Code Generation)の研究を包括的にレビューする。私たちのゴールは、この急速に進化する分野を理解するための統合分析フレームワークを確立し、AIによるソフトウェア工学の継続的な進歩を刺激することです。
論文参考訳（メタデータ） (2025-10-06T15:20:03Z)
UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文参考訳（メタデータ） (2025-09-26T02:04:00Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。 Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。