論文の概要: SaaSBench: Exploring the Boundaries of Coding Agents in Long-Horizon Enterprise SaaS Engineering
- arxiv url: http://arxiv.org/abs/2605.17526v1
- Date: Sun, 17 May 2026 16:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.127696
- Title: SaaSBench: Exploring the Boundaries of Coding Agents in Long-Horizon Enterprise SaaS Engineering
- Title(参考訳): SaaSBench: 長距離エンタープライズSaaSエンジニアリングにおけるコーディングエージェントの境界を探る
- Authors: Qingnan Ren, Shun Zou, Shiting Huang, Ziao Zhang, Kou Shi, Zhen Fang, Yiming Zhao, Yu Zeng, Qisheng Su, Lin Chen, Yong Wang, Zehui Chen, Xiangxiang Chu, Feng Zhao,
- Abstract要約: 私たちは、エンタープライズエンジニアリングにおけるAIエージェントの境界を調査するために設計された最初のベンチマークであるBenchを紹介します。
8つのプログラミング言語、6つのデータベース、13のフレームワークを組み込んで、現実世界のソフトウェアを巧みにミラーリングする。
最先端エージェントの主なボトルネックは、独立したコードロジックを生成するのではなく、マルチコンポーネントシステムの構成と統合に成功していることが示される。
- 参考スコア(独自算出の注目度): 42.16295498118832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As autonomous coding agents become capable of handling increasingly long-horizon tasks, they have gradually demonstrated the potential to complete end-to-end software development. Although existing benchmarks have recently evolved from localized code editing to from-scratch project generation, they remain confined to structurally simplified, single-stack applications. Consequently, they fail to capture the heterogeneous environments, full-stack orchestration, and system-level complexity of real enterprise Software as a Service (SaaS) systems, leaving a critical gap in assessing agents under realistic engineering constraints. To fill this gap, we introduce SaaSBench, the first benchmark designed to explore the boundaries of AI agents in enterprise SaaS engineering. Spanning 30 complex tasks across 6 SaaS domains with 5,370 validation nodes, it incorporates 8 programming languages, 6 databases, and 13 frameworks to meticulously mirror real-world software heterogeneity. Furthermore, we design a dependency-aware hybrid evaluation paradigm tailored for complex systems with long horizons and multi-component coupling, enabling fine-grained, reproducible assessment. Crucially, our extensive experiments reveal a striking insight: the primary bottleneck for state-of-the-art agents is not generating isolated code logic, but successfully configuring and integrating a multi-component system. Over 95\% of task failures occur before agents even reach deep business logic, with models often falling victim to overconfidence and prematurely halting during foundational system setup, or getting trapped in ineffective debugging loops. We hope SaaSBench serves as a practical and challenging testbed to drive the evolution of reliable, system-level coding agents. The code is available at \url{https://github.com/ShadeCloak/SaaSbench}.
- Abstract(参考訳): 自律的なコーディングエージェントがますます長期のタスクを処理できるようになると、彼らは徐々にエンドツーエンドのソフトウェア開発を完了させる可能性を実証してきた。
既存のベンチマークはローカライズされたコード編集からoff-scratchプロジェクト生成へと進化してきたが、それでも構造的に単純化されたシングルスタックアプリケーションに限られている。
その結果、実際のエンタープライズソフトウェア・アズ・ア・サービス(SaaS)システムの異種環境、フルスタックのオーケストレーション、システムレベルの複雑さを捉えることができず、エージェントを現実的なエンジニアリング上の制約の下で評価する上で重要なギャップを残します。
このギャップを埋めるために、エンタープライズSaaSエンジニアリングにおけるAIエージェントの境界を探るための最初のベンチマークであるSaaSBenchを紹介します。
5,370のバリデーションノードを持つ6つのSaaSドメインに30の複雑なタスクを分散させ、8つのプログラミング言語、6つのデータベース、13のフレームワークを組み込んで、現実世界のソフトウェア不均一性を巧みにミラーリングする。
さらに,長い水平線と多成分結合を持つ複雑なシステムに適した依存性を考慮したハイブリッド評価パラダイムを設計し,よりきめ細かな再現可能な評価を可能にする。
最先端エージェントの主なボトルネックは、独立したコードロジックを生成するのではなく、マルチコンポーネントシステムの設定と統合に成功していることです。
エージェントが深いビジネスロジックに到達する前に、95%以上のタスク障害が発生します。
SaaSBenchが、信頼性の高いシステムレベルのコーディングエージェントの進化を促進するために、実用的で挑戦的なテストベッドとして機能することを願っています。
コードは \url{https://github.com/ShadeCloak/SaaSbench} で公開されている。
関連論文リスト
- SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows? [29.5539656241093]
Computer-Using Agents (CUA)は、より複雑な環境でのアクション実行に対するテキストベースの推論を超えて、大規模言語モデル(LLM)を急速に拡張している。
既存のベンチマークは、しばしば単純化された設定、孤立したタスク、短期水平相互作用に依存している。
6つのプロフェッショナルドメインにわたる23のデプロイ可能なシステム上に構築されたベンチマークには、現実的な作業シナリオに基づく106のタスクが含まれています。
実験の結果、LLMベースのエージェントがベンチで苦労していることが示され、最強のモデルでさえ、エンドツーエンドのタスクの4%未満を完了している。
論文 参考訳(メタデータ) (2026-05-15T09:35:15Z) - EvoClaw: Evaluating AI Agents on Continuous Software Evolution [47.49468375065129]
ノイズの多いコミットログから検証可能なマイルストーンDAGを再構築するエージェントパイプラインであるDeepCommitを紹介する。
これらの実行可能なシーケンスは、エージェントがシステムの完全性を維持し、エラーの蓄積を制限する必要がある新しいベンチマークであるEvoClawを可能にする。
論文 参考訳(メタデータ) (2026-03-13T03:20:40Z) - Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。
本稿では,再構築による理解という,新しいパラダイムを提案する。
マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-11T09:23:20Z) - SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration [7.89414068452646]
SWE-CIは継続的インテグレーションループ上に構築された最初のリポジトリレベルのベンチマークである。
コード生成のための評価パラダイムを静的・短期的テキスト機能的正当性から動的・長期的テキスト保守性へシフトすることを目的としている。
論文 参考訳(メタデータ) (2026-03-04T08:20:25Z) - NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。
符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文 参考訳(メタデータ) (2025-12-14T15:12:13Z) - SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。
SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。
SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文 参考訳(メタデータ) (2025-11-07T18:01:32Z) - SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? [13.645265361867565]
SWE-Bench ProはSWE-BENCH [25]のベストプラクティスに基づいていますが、現実的で複雑でエンタープライズレベルの問題を捉えるように設計されています。
ベンチマークはパブリックセットに分割され、11のリポジトリ、12のリポジトリのホールドアウトセット、18のプロプライエタリリポジトリの商用セットからソースされた問題にオープンアクセスされる。
広範に使用されている符号化モデルの評価では,SWE-Bench PROの性能は25%以下(Pass@1)であり,GPT-5は23.3%と最高スコアである。
論文 参考訳(メタデータ) (2025-09-21T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。