論文の概要: From Prompt to Product: A Human-Centered Benchmark of Agentic App Generation Systems
- arxiv url: http://arxiv.org/abs/2512.18080v1
- Date: Fri, 19 Dec 2025 21:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.181278
- Title: From Prompt to Product: A Human-Centered Benchmark of Agentic App Generation Systems
- Title(参考訳): PromptからProductへ:エージェントアプリ生成システムの人間中心ベンチマーク
- Authors: Marcos Ortiz, Justin Hill, Collin Overbay, Ingrida Semenec, Frederic Sauve-Hoover, Jim Schwoebel, Joel Shor,
- Abstract要約: 自然言語プロンプトからフルスタックのWebアプリケーションを生成できるエージェントAIシステムは、ソフトウェア開発の大きな変化を示している。
既存のプロンプト・ツー・アプリ・ツールは、現実的な人間中心の評価基準の下でどのように比較されているかは不明だ。
本稿では,アクセシブ・ツー・アプリ・システム評価のための人間中心ベンチマークを導入し,広く利用されている3つのプラットフォームを大規模に比較検討する。
- 参考スコア(独自算出の注目度): 1.2273967746497585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic AI systems capable of generating full-stack web applications from natural language prompts ("prompt- to-app") represent a significant shift in software development. However, evaluating these systems remains challenging, as visual polish, functional correctness, and user trust are often misaligned. As a result, it is unclear how existing prompt-to-app tools compare under realistic, human-centered evaluation criteria. In this paper, we introduce a human-centered benchmark for evaluating prompt-to-app systems and conduct a large-scale comparative study of three widely used platforms: Replit, Bolt, and Firebase Studio. Using a diverse set of 96 prompts spanning common web application tasks, we generate 288 unique application artifacts. We evaluate these systems through a large-scale human-rater study involving 205 participants and 1,071 quality-filtered pairwise comparisons, assessing task-based ease of use, visual appeal, perceived completeness, and user trust. Our results show that these systems are not interchangeable: Firebase Studio consistently outperforms competing platforms across all human-evaluated dimensions, achieving the highest win rates for ease of use, trust, visual appeal, and visual appropriateness. Bolt performs competitively on visual appeal but trails Firebase on usability and trust, while Replit underperforms relative to both across most metrics. These findings highlight a persistent gap between visual polish and functional reliability in prompt-to-app systems and demonstrate the necessity of interactive, task-based evaluation. We release our benchmark framework, prompt set, and generated artifacts to support reproducible evaluation and future research in agentic application generation.
- Abstract(参考訳): 自然言語プロンプト("prompt-to-app")からフルスタックのWebアプリケーションを生成可能なエージェントAIシステムは、ソフトウェア開発の大きな変化を示している。
しかしながら、視覚的洗練、機能的正当性、ユーザ信頼がしばしば不一致であるため、これらのシステムを評価することは依然として困難である。
その結果、既存のプロンプト・ツー・アプリ・ツールが現実的な人間中心評価基準の下でどのように比較されているかは明らかでない。
本稿では,アクシデント・ツー・アプリシステム評価のための人間中心ベンチマークを導入し,Replit, Bolt, Firebase Studioの3つの広く利用されているプラットフォームを大規模に比較検討する。
一般的なWebアプリケーションタスクにまたがる96のプロンプトの多様なセットを使用して、288のユニークなアプリケーションアーティファクトを生成します。
205名の被験者と1,071名の品質フィルタによるペアワイド比較を行い、タスクベースの使いやすさ、視覚的魅力、知覚的完全性、ユーザの信頼度を評価する。
Firebase Studioは、人間評価されたすべての次元で競合するプラットフォームを一貫して上回り、使いやすさ、信頼性、視覚的魅力、視覚的適切性で最高の勝利率を達成しています。
Boltは視覚的魅力で競争力があるが、ユーザビリティと信頼性でFirebaseを追い越している。
これらの結果から,アクシデント・ツー・アプリシステムにおける視覚的磨きと機能的信頼性の相違が指摘され,対話型タスクベース評価の必要性が示された。
我々は、再現可能な評価とエージェントアプリケーション生成における将来の研究をサポートするために、ベンチマークフレームワーク、プロンプトセット、および生成されたアーティファクトをリリースする。
関連論文リスト
- Saving SWE-Bench: A Benchmark Mutation Approach for Realistic Agent Evaluation [5.332969177132911]
SWE-Bench Verifiedのようなソフトウェアエンジニアリングエージェントを評価するための現在のベンチマークは、主にGitHubの問題に由来する。
既存のベンチマークを現実的なユーザクエリに変換する,新たなベンチマークフレームワークを導入する。
論文 参考訳(メタデータ) (2025-10-10T04:42:02Z) - You Don't Know Until You Click:Automated GUI Testing for Production-Ready Software Evaluation [24.956175875766952]
RealDevWorldは、大規模言語モデル(LLM)とソフトウェア開発におけるコードエージェントの評価フレームワークである。
主なコンポーネントは、194のオープンエンドソフトウェアエンジニアリングタスクのコレクションであるRealDevBenchと、新しいエージェント・アズ・ア・ジャッジ評価システムであるAppEvalPilotだ。
実証的な結果は、RealDevWorldが効果的で、自動で、そして、人間に沿った評価を提供することを示している。
論文 参考訳(メタデータ) (2025-08-17T07:31:11Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。