論文の概要: ARC: Compiling Hundreds of Requirement Scenarios into A Runnable Web System
- arxiv url: http://arxiv.org/abs/2602.13723v1
- Date: Sat, 14 Feb 2026 11:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.36188
- Title: ARC: Compiling Hundreds of Requirement Scenarios into A Runnable Web System
- Title(参考訳): ARC:何百ものシナリオを実行可能なWebシステムにコンパイルする
- Authors: Weiyu Kong, Yun Lin, Xiwen Teoh, Duc-Minh Nguyen, Ruofei Ren, Jiaxin Chang, Haoxu Hu, Haoyu Chen,
- Abstract要約: Agentic Requirement Compilation (ARC)は、単純なコード生成から要件コンパイルへ移行するテクニックである。
ARCはソースコードだけでなく、UI、API、データベース層のためのモジュラーデザインも生成する。
21人の参加者によるユーザスタディでは、初心者のユーザが複雑なシステムのためにDSL文書を書けることが示されている。
- 参考スコア(独自算出の注目度): 10.49539144799249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have improved programming efficiency, but their performance degrades significantly as requirements scale; when faced with multi-modal documents containing hundreds of scenarios, LLMs often produce incorrect implementations or omit constraints. We propose Agentic Requirement Compilation (ARC), a technique that moves beyond simple code generation to requirement compilation, enabling the creation of runnable web systems directly from multi-modal DSL documents. ARC generates not only source code but also modular designs for UI, API, and database layers, enriched test suites (unit, modular, and integration), and detailed traceability for software maintenance. Our approach employs a bidirectional test-driven agentic loop: a top-down architecture phase decomposes requirements into verifiable interfaces, followed by a bottom-up implementation phase where agents generate code to satisfy those tests. ARC maintains strict traceability across requirements, design, and code to facilitate intelligent asset reuse. We evaluated ARC by generating six runnable web systems from documents spanning 50-200 multi-modal scenarios. Compared to state-of-the-art baselines, ARC-generated systems pass 50.6% more GUI tests on average. A user study with 21 participants showed that novice users can successfully write DSL documents for complex systems, such as a 10K-line ticket-booking system, in an average of 5.6 hours. These results demonstrate that ARC effectively transforms non-trivial requirement specifications into maintainable, runnable software.
- Abstract(参考訳): 大規模言語モデル(LLM)はプログラミング効率を向上するが、その性能は要求スケールで大幅に低下する。
本稿では,シンプルなコード生成から要件コンパイルへ移行し,マルチモーダルDSL文書から直接実行可能なWebシステムを作成する技術であるAgentic Requirement Compilation(ARC)を提案する。
ARCはソースコードだけでなく、UI、API、データベース層のためのモジュール設計、豊富なテストスイート(ユニット、モジュール、統合)、ソフトウェアのメンテナンスのための詳細なトレーサビリティも生成します。
トップダウンアーキテクチャフェーズでは,要件を検証可能なインターフェースに分解し,ボトムアップ実装フェーズではエージェントがテストを満たすコードを生成する。
ARCは、知的資産再利用を促進するために、要求、設計、コード間の厳密なトレーサビリティを維持している。
我々は,50~200のマルチモーダルシナリオにまたがる文書から,実行可能な6つのWebシステムを生成することによりARCを評価した。
最先端のベースラインと比較すると、ARC生成システムは平均50.6%以上のGUIテストをパスしている。
21人の参加者による調査によると、初心者は10Kラインのチケット予約システムのような複雑なシステムで平均5.6時間でDSL文書を書ける。
これらの結果は、ARCが非自明な要求仕様を保守可能で実行可能なソフトウェアに効果的に変換することを示した。
関連論文リスト
- A Declarative Language for Building And Orchestrating LLM-Powered Agent Workflows [0.0]
本稿では,エージェントワークフロー仕様と実装を分離する宣言型システムを提案する。
これらの結果から,開発時間の60%削減,デプロイメント速度の3倍の改善が見られた。
製品検索やパーソナライズ,カート管理といった複雑な処理は,500行以上の命令型コードと比較して,50行未満のDSLで表現可能であることを示す。
論文 参考訳(メタデータ) (2025-12-22T05:03:37Z) - Towards Realistic Project-Level Code Generation via Multi-Agent Collaboration and Semantic Architecture Modeling [7.753074942497876]
CodeProjectEvalは、12.7ファイルと2,388.6行のタスクを持つ18の現実世界リポジトリから構築されたプロジェクトレベルのコード生成データセットである。
プロジェクトをアーキテクチャ設計、スケルトン生成、コードフィリングステージに分解するマルチエージェントフレームワークであるProjectGenを提案する。
実験によると、ProjectGenは、52/124のテストケースを小さなプロジェクトレベルのコード生成データセットDevBenchに渡すことで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-05T12:12:35Z) - FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - Zero-Shot Document Understanding using Pseudo Table of Contents-Guided Retrieval-Augmented Generation [4.875345207589195]
DocsRayは、トレーニング不要の文書理解システムである。
擬似コンテンツテーブル(TOC)生成と階層型検索拡張生成(RAG)を統合する
論文 参考訳(メタデータ) (2025-07-31T03:14:45Z) - Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。