論文の概要: app.build: A Production Framework for Scaling Agentic Prompt-to-App Generation with Environment Scaffolding
- arxiv url: http://arxiv.org/abs/2509.03310v1
- Date: Wed, 03 Sep 2025 13:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.532498
- Title: app.build: A Production Framework for Scaling Agentic Prompt-to-App Generation with Environment Scaffolding
- Title(参考訳): app.build: 環境負荷によるエージェントprompt-to-App生成のスケーリングのための生産フレームワーク
- Authors: Evgenii Kniazev, Arseny Kravchenko, Igor Rekun, James Broadhead, Nikita Shamgunov, Pranav Sah, Pratik Nichite, Ivan Yamshchikov,
- Abstract要約: 我々は,LLMベースのアプリケーション生成を改善するオープンソースフレームワークであるapp.buildについて,体系的な検証と構造化環境を通じて紹介する。
このアプローチでは,3つの参照スタックにまたがって実装された多層検証パイプライン,スタック固有のオーケストレーション,モデルに依存しないアーキテクチャを組み合わせる。
本研究では, 包括的検証が73.3%, 30%が完全品質を達成し, オープンウェイトモデルが80.8%のクローズドモデル性能を達成していることを示す。
- 参考スコア(独自算出の注目度): 0.09198412216120845
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present app.build (https://github.com/appdotbuild/agent/), an open-source framework that improves LLM-based application generation through systematic validation and structured environments. Our approach combines multi-layered validation pipelines, stack-specific orchestration, and model-agnostic architecture, implemented across three reference stacks. Through evaluation on 30 generation tasks, we demonstrate that comprehensive validation achieves 73.3% viability rate with 30% reaching perfect quality scores, while open-weights models achieve 80.8% of closed-model performance when provided structured environments. The open-source framework has been adopted by the community, with over 3,000 applications generated to date. This work demonstrates that scaling reliable AI agents requires scaling environments, not just models -- providing empirical insights and complete reference implementations for production-oriented agent systems.
- Abstract(参考訳): App.build(https://github.com/appdotbuild/agent/)は,LLMベースのアプリケーション生成を改善するオープンソースフレームワークである。
このアプローチでは,3つの参照スタックにまたがって実装された多層検証パイプライン,スタック固有のオーケストレーション,モデルに依存しないアーキテクチャを組み合わせる。
提案手法は,30生成タスクの総合的検証が73.3%,完全品質スコアが30%,オープンウェイトモデルが80.8%のクローズドモデル性能を実現していることを示す。
オープンソースフレームワークはコミュニティによって採用され、これまでに3,000以上のアプリケーションが作成された。
この研究は、信頼性の高いAIエージェントのスケーリングには、モデルだけでなく、スケーリング環境が必要であることを実証している。
関連論文リスト
- Scalable Engine and the Performance of Different LLM Models in a SLURM based HPC architecture [3.746889836344766]
本研究は、SLURM(Simple Linux Utility for Resource Management)に基づく高性能コンピューティングアーキテクチャについて詳述する。
動的リソーススケジューリングとコンテナ化のシームレスな統合は、CPU、GPU、メモリをマルチノードクラスタで効率的に管理するために活用されている。
その結果,大規模HPCインフラストラクチャ上でのLLM推論は,より効率的で応答性が高く,耐故障性に優れた。
論文 参考訳(メタデータ) (2025-08-25T09:11:27Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools? [50.60770039016318]
モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。
LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。
評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
論文 参考訳(メタデータ) (2025-08-03T14:36:42Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文 参考訳(メタデータ) (2025-07-11T22:45:07Z) - Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky [0.0]
大規模言語モデル(LLM)はますますエンタープライズAPIの呼び出しを担っているが、ほぼ重複したツールが同じユーザ意図で動作しようとすると、日常的にフェールする。
人格駆動の多ターン対話を合成する,曖昧性中心の3段階パイプラインであるDiaFORGEを紹介する。
DiaBENCHのベンチマークでは、DiaFORGEでトレーニングしたモデルは、GPT-4oで27pp、Claude-3.5-Sonnetで49pp、それぞれ最適化されたプロンプトで成功した。
論文 参考訳(メタデータ) (2025-07-04T06:49:02Z) - An Integrated Platform for LEED Certification Automation Using Computer Vision and LLM-RAG [0.0]
本稿では,LEED認証の重要な側面を合理化する自動化プラットフォームを提案する。
このプラットフォームには、PySide6ベースのユーザインターフェース、プロセスオーケストレーションのためのレビューマネージャ、クレジットコンプライアンスのための複数の分析エンジン、EnergyPlusによるエネルギーモデリング、ロケーションベースの評価が含まれている。
論文 参考訳(メタデータ) (2025-06-01T08:05:35Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。