論文の概要: SWE-AGI: Benchmarking Specification-Driven Software Construction with MoonBit in the Era of Autonomous Agents
- arxiv url: http://arxiv.org/abs/2602.09447v1
- Date: Tue, 10 Feb 2026 06:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.407417
- Title: SWE-AGI: Benchmarking Specification-Driven Software Construction with MoonBit in the Era of Autonomous Agents
- Title(参考訳): SWE-AGI: 自律エージェント時代のMoonBitによる仕様駆動ソフトウェア構築のベンチマーク
- Authors: Zhirui Zhang, Hongbo Zhang, Haoxiang Fei, Zhiyuan Bao, Yubin Chen, Zhengyu Lei, Ziyue Liu, Yixuan Sun, Mingkun Xiao, Zihang Ye, Yu Zhang, Hongcheng Zhu, Yuxiang Wen, Heung-Yeung Shum,
- Abstract要約: SWE-AGIはMoonBitで書かれたソフトウェアシステムのエンドツーエンド、仕様駆動の構築を評価するためのオープンソースのベンチマークである。
それぞれのタスクには1000~10,000行のコアロジックを実装する必要がある。
- 参考スコア(独自算出の注目度): 21.8776989802963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) have demonstrated impressive coding capabilities, their ability to autonomously build production-scale software from explicit specifications remains an open question. We introduce SWE-AGI, an open-source benchmark for evaluating end-to-end, specification-driven construction of software systems written in MoonBit. SWE-AGI tasks require LLM-based agents to implement parsers, interpreters, binary decoders, and SAT solvers strictly from authoritative standards and RFCs under a fixed API scaffold. Each task involves implementing 1,000-10,000 lines of core logic, corresponding to weeks or months of engineering effort for an experienced human developer. By leveraging the nascent MoonBit ecosystem, SWE-AGI minimizes data leakage, forcing agents to rely on long-horizon architectural reasoning rather than code retrieval. Across frontier models, gpt-5.3-codex achieves the best overall performance (solving 19/22 tasks, 86.4%), outperforming claude-opus-4.6 (15/22, 68.2%), and kimi-2.5 exhibits the strongest performance among open-source models. Performance degrades sharply with increasing task difficulty, particularly on hard, specification-intensive systems. Behavioral analysis further reveals that as codebases scale, code reading, rather than writing, becomes the dominant bottleneck in AI-assisted development. Overall, while specification-driven autonomous software engineering is increasingly viable, substantial challenges remain before it can reliably support production-scale development.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的なコーディング能力を示しているが、明示的な仕様から自動でプロダクションスケールのソフトウェアを構築する能力は未解決のままである。
我々は、MoonBitで書かれたソフトウェアシステムのエンドツーエンド、仕様駆動構築を評価するためのオープンソースのベンチマークであるSWE-AGIを紹介する。
SWE-AGIタスクは、パーサ、インタプリタ、バイナリデコーダ、SATソルバを実装するためにLLMベースのエージェントを必要とする。
それぞれのタスクには1000~10,000行のコアロジックを実装する必要がある。
初期のMoonBitエコシステムを活用することで、SWE-AGIはデータ漏洩を最小限に抑え、エージェントはコード検索ではなく、長い水平のアーキテクチャ推論を頼らざるを得なくなる。
フロンティアモデル全体では、gpt-5.3-codexは最高パフォーマンス(19/22タスク、86.4%)、クロードオプス4.6(15/22、68.2%)、キミ2.5はオープンソースモデルの中で最も優れたパフォーマンスを示している。
パフォーマンスは、特にハードで仕様集約的なシステムにおいて、タスクの難しさが増すにつれて著しく低下する。
振る舞い分析により、コードベースがスケールするにつれて、コードを書くよりもコードを読むことが、AI支援開発における主要なボトルネックになることが明らかになった。
全体としては、仕様駆動の自律ソフトウェアエンジニアリングはますます現実的になっていますが、プロダクション規模の開発を確実にサポートする前に、大きな課題が残っています。
関連論文リスト
- ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。
SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。
SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文 参考訳(メタデータ) (2025-11-07T18:01:32Z) - Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes [33.80591142965565]
CODE2BENCHは、実世界のGitHubリポジトリから、堅牢で汚染に強いベンチマークを動的に構築するためのパイプラインである。
特に、CODE2BENCHは、(1) トレーニングデータの汚染を最小限に抑えるために、最近のコードの周期的取り込みによって達成される自動ダイナミズム、(2) 依存レベルの制御されたベンチマークインスタンスへの関数の構造化可能なスコープグラフベースの依存性分析、(3) 厳密なテストスイートの自動合成のためのプロパティベーステスト(PBT)の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-08-10T05:06:36Z) - GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents [33.71705923246233]
GSOは、高性能ソフトウェアを開発する際の言語モデルの能力を評価するためのベンチマークである。
SWE-Agentsは5%未満の成功率を達成でき、推論時間スケーリングにおいても改善が限られている。
将来の研究を可能にするために、ベンチマークのコードとアーティファクトとエージェントトラジェクトリをリリースします。
論文 参考訳(メタデータ) (2025-05-29T17:14:55Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Human-In-the-Loop Software Development Agents [12.830816751625829]
大規模言語モデル(LLM)ベースのソフトウェアエンジニアリングのためのマルチエージェントパラダイムを導入し、ソフトウェア開発タスクを自動的に解決する。
本稿では,ソフトウェア開発のためのHuman-in-the-loop LLMベースのエージェントフレームワーク(HULA)を紹介する。
私たちは社内使用のために、HULAフレームワークをAtlassianに設計、実装、デプロイしています。
論文 参考訳(メタデータ) (2024-11-19T23:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。