論文の概要: AppForge: From Assistant to Independent Developer - Are GPTs Ready for Software Development?
- arxiv url: http://arxiv.org/abs/2510.07740v1
- Date: Thu, 09 Oct 2025 03:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.843624
- Title: AppForge: From Assistant to Independent Developer - Are GPTs Ready for Software Development?
- Title(参考訳): AppForge: アシスタントから独立開発者へ - GPTはソフトウェア開発の準備ができているのか?
- Authors: Dezhi Ran, Yuan Cao, Mengzhou Wu, Simin Chen, Yuzhe Guo, Jun Ren, Zihe Song, Hao Yu, Jialei Wei, Linyi Li, Wei Yang, Baishakhi Ray, Tao Xie,
- Abstract要約: APPFORGEは、現実世界のAndroidアプリから引き出された101のソフトウェア開発問題からなるベンチマークである。
アプリケーション文書から主要な機能を自動で要約するマルチエージェントシステムを設計し、テストケースを合成するためにアプリをナビゲートする。
Android開発専門家による厳格な手作業による検証に続いて、APPFORGEでは、テストケースを自動評価フレームワークに組み込んでいる。
- 参考スコア(独自算出の注目度): 28.63033734662797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capability in function-level code generation tasks. Unlike isolated functions, real-world applications demand reasoning over the entire software system: developers must orchestrate how different components interact, maintain consistency across states over time, and ensure the application behaves correctly within the lifecycle and framework constraints. Yet, no existing benchmark adequately evaluates whether LLMs can bridge this gap and construct entire software systems from scratch. To address this gap, we propose APPFORGE, a benchmark consisting of 101 software development problems drawn from real-world Android apps. Given a natural language specification detailing the app functionality, a language model is tasked with implementing the functionality into an Android app from scratch. Developing an Android app from scratch requires understanding and coordinating app states, lifecycle management, and asynchronous operations, calling for LLMs to generate context-aware, robust, and maintainable code. To construct APPFORGE, we design a multi-agent system to automatically summarize the main functionalities from app documents and navigate the app to synthesize test cases validating the functional correctness of app implementation. Following rigorous manual verification by Android development experts, APPFORGE incorporates the test cases within an automated evaluation framework that enables reproducible assessment without human intervention, making it easily adoptable for future research. Our evaluation on 12 flagship LLMs show that all evaluated models achieve low effectiveness, with the best-performing model (GPT-5) developing only 18.8% functionally correct applications, highlighting fundamental limitations in current models' ability to handle complex, multi-component software engineering challenges.
- Abstract(参考訳): 大規模言語モデル (LLM) は関数レベルのコード生成タスクにおいて顕著な能力を示した。
開発者は、異なるコンポーネントがどのように相互作用するかを編成し、時間とともに状態間の一貫性を維持し、アプリケーションがライフサイクルやフレームワークの制約の中で正しく振る舞うようにしなければなりません。
しかし、既存のベンチマークでは、LCMがこのギャップを埋め、スクラッチからソフトウェアシステム全体を構築することができるかどうかを適切に評価していない。
このギャップに対処するために,現実世界のAndroidアプリから引き出された101のソフトウェア開発問題からなるベンチマークであるAPPFORGEを提案する。
アプリ機能の詳細を記述した自然言語仕様を前提として,Androidアプリに機能をスクラッチから実装する言語モデルが義務付けられている。
ゼロからAndroidアプリを開発するには、アプリケーション状態の理解とコーディネート、ライフサイクル管理、非同期操作が必要で、コンテキスト対応、堅牢、メンテナンス可能なコードを生成するためにLLMを呼び出す必要がある。
appFORGEを構築するために,アプリケーションドキュメントから主要な機能を自動で要約するマルチエージェントシステムを設計し,アプリケーション実装の機能的正当性を検証するテストケースを合成するためにアプリをナビゲートする。
Android開発専門家による厳格な手作業による検証に続いて、APPFORGEでは、テストケースを自動評価フレームワークに組み込んで、人間の介入なしに再現可能な評価を可能にすることにより、将来の研究に容易に適用できるようになる。
12のフラッグシップLCMに対する評価では、評価されたモデルすべてが低効率であり、最も優れたモデル(GPT-5)は18.8%しか機能的に正しいアプリケーションを開発せず、複雑なマルチコンポーネントのソフトウェアエンジニアリング課題に対処する現在のモデルの基本的限界を強調している。
関連論文リスト
- Automatically Generating Web Applications from Requirements Via Multi-Agent Test-Driven Development [34.560333810255464]
私たちは、エンドツーエンドのフルスタックWebアプリケーション生成のための最初のテスト駆動開発フレームワークであるTDDevを紹介します。
自然言語の説明や設計イメージが与えられたら、TDDevは自動的に実行可能なテストケースを導き、フロントエンドとバックエンドのコードを生成し、ユーザーインタラクションをシミュレートします。
本フレームワークは,ユーザ要求の不明確さ,複数ファイル間の複雑な相互依存性,機能的正当性と視覚的忠実性といった,フルスタック自動化における重要な課題に対処する。
論文 参考訳(メタデータ) (2025-09-29T16:18:19Z) - You Don't Know Until You Click:Automated GUI Testing for Production-Ready Software Evaluation [24.956175875766952]
RealDevWorldは、大規模言語モデル(LLM)とソフトウェア開発におけるコードエージェントの評価フレームワークである。
主なコンポーネントは、194のオープンエンドソフトウェアエンジニアリングタスクのコレクションであるRealDevBenchと、新しいエージェント・アズ・ア・ジャッジ評価システムであるAppEvalPilotだ。
実証的な結果は、RealDevWorldが効果的で、自動で、そして、人間に沿った評価を提供することを示している。
論文 参考訳(メタデータ) (2025-08-17T07:31:11Z) - Contextual Augmented Multi-Model Programming (CAMP): A Hybrid Local-Cloud Copilot Framework [8.28588489551341]
本稿では、Retrieval-Augmented Generation(RAG)を用いた局所モデルからなるマルチモデルAI支援プログラミングフレームワークであるCAMPを提案する。
RAGは、コンテキスト認識プロンプト構築を容易にするために、クラウドモデルからコンテキスト情報を取得する。
この方法論は、Appleソフトウェアエコシステム向けに開発されたAI支援プログラミングツールであるCopilot for Xcodeで実現されている。
論文 参考訳(メタデータ) (2024-10-20T04:51:24Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - LLM for Test Script Generation and Migration: Challenges, Capabilities,
and Opportunities [8.504639288314063]
テストスクリプト生成はソフトウェアテストの重要なコンポーネントであり、反復的なテストタスクの効率的かつ信頼性の高い自動化を可能にする。
既存の世代のアプローチは、さまざまなデバイス、プラットフォーム、アプリケーション間でテストスクリプトを正確にキャプチャし、再現することの難しさなど、しばしば制限に直面する。
本稿では,モバイルアプリケーションテストスクリプト生成分野における大規模言語モデル(LLM)の適用について検討する。
論文 参考訳(メタデータ) (2023-09-24T07:58:57Z) - ChatDev: Communicative Agents for Software Development [84.90400377131962]
ChatDevはチャットを利用したソフトウェア開発フレームワークで、特別なエージェントがコミュニケーション方法についてガイドされる。
これらのエージェントは、統一された言語ベースのコミュニケーションを通じて、設計、コーディング、テストフェーズに積極的に貢献する。
論文 参考訳(メタデータ) (2023-07-16T02:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。