Fugu-MT 論文翻訳(概要): AppForge: From Assistant to Independent Developer

論文の概要: AppForge: From Assistant to Independent Developer - Are GPTs Ready for Software Development?

arxiv url: http://arxiv.org/abs/2510.07740v1
Date: Thu, 09 Oct 2025 03:26:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-10 17:54:14.843624
Title: AppForge: From Assistant to Independent Developer - Are GPTs Ready for Software Development?
Title（参考訳）: AppForge: アシスタントから独立開発者へ - GPTはソフトウェア開発の準備ができているのか?
Authors: Dezhi Ran, Yuan Cao, Mengzhou Wu, Simin Chen, Yuzhe Guo, Jun Ren, Zihe Song, Hao Yu, Jialei Wei, Linyi Li, Wei Yang, Baishakhi Ray, Tao Xie,
Abstract要約: APPFORGEは、現実世界のAndroidアプリから引き出された101のソフトウェア開発問題からなるベンチマークである。アプリケーション文書から主要な機能を自動で要約するマルチエージェントシステムを設計し、テストケースを合成するためにアプリをナビゲートする。 Android開発専門家による厳格な手作業による検証に続いて、APPFORGEでは、テストケースを自動評価フレームワークに組み込んでいる。
参考スコア（独自算出の注目度）: 28.63033734662797
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated remarkable capability in function-level code generation tasks. Unlike isolated functions, real-world applications demand reasoning over the entire software system: developers must orchestrate how different components interact, maintain consistency across states over time, and ensure the application behaves correctly within the lifecycle and framework constraints. Yet, no existing benchmark adequately evaluates whether LLMs can bridge this gap and construct entire software systems from scratch. To address this gap, we propose APPFORGE, a benchmark consisting of 101 software development problems drawn from real-world Android apps. Given a natural language specification detailing the app functionality, a language model is tasked with implementing the functionality into an Android app from scratch. Developing an Android app from scratch requires understanding and coordinating app states, lifecycle management, and asynchronous operations, calling for LLMs to generate context-aware, robust, and maintainable code. To construct APPFORGE, we design a multi-agent system to automatically summarize the main functionalities from app documents and navigate the app to synthesize test cases validating the functional correctness of app implementation. Following rigorous manual verification by Android development experts, APPFORGE incorporates the test cases within an automated evaluation framework that enables reproducible assessment without human intervention, making it easily adoptable for future research. Our evaluation on 12 flagship LLMs show that all evaluated models achieve low effectiveness, with the best-performing model (GPT-5) developing only 18.8% functionally correct applications, highlighting fundamental limitations in current models' ability to handle complex, multi-component software engineering challenges.
Abstract（参考訳）: 大規模言語モデル (LLM) は関数レベルのコード生成タスクにおいて顕著な能力を示した。開発者は、異なるコンポーネントがどのように相互作用するかを編成し、時間とともに状態間の一貫性を維持し、アプリケーションがライフサイクルやフレームワークの制約の中で正しく振る舞うようにしなければなりません。しかし、既存のベンチマークでは、LCMがこのギャップを埋め、スクラッチからソフトウェアシステム全体を構築することができるかどうかを適切に評価していない。このギャップに対処するために,現実世界のAndroidアプリから引き出された101のソフトウェア開発問題からなるベンチマークであるAPPFORGEを提案する。アプリ機能の詳細を記述した自然言語仕様を前提として,Androidアプリに機能をスクラッチから実装する言語モデルが義務付けられている。ゼロからAndroidアプリを開発するには、アプリケーション状態の理解とコーディネート、ライフサイクル管理、非同期操作が必要で、コンテキスト対応、堅牢、メンテナンス可能なコードを生成するためにLLMを呼び出す必要がある。 appFORGEを構築するために,アプリケーションドキュメントから主要な機能を自動で要約するマルチエージェントシステムを設計し,アプリケーション実装の機能的正当性を検証するテストケースを合成するためにアプリをナビゲートする。 Android開発専門家による厳格な手作業による検証に続いて、APPFORGEでは、テストケースを自動評価フレームワークに組み込んで、人間の介入なしに再現可能な評価を可能にすることにより、将来の研究に容易に適用できるようになる。 12のフラッグシップLCMに対する評価では、評価されたモデルすべてが低効率であり、最も優れたモデル(GPT-5)は18.8%しか機能的に正しいアプリケーションを開発せず、複雑なマルチコンポーネントのソフトウェアエンジニアリング課題に対処する現在のモデルの基本的限界を強調している。

関連論文リスト

ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文参考訳（メタデータ） (2026-01-16T08:23:52Z)
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文参考訳（メタデータ） (2025-11-17T23:57:24Z)
SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。 SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。 SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文参考訳（メタデータ） (2025-11-07T18:01:32Z)
The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution [86.4588675093384]
Toolathlonは、多様なアプリやツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークである。このベンチマークには、手動でソースまたはクラフトされたタスクが108つ含まれており、平均20回以上にわたって複数のアプリと対話する必要がある。 Toolathlonは、より有能な言語エージェントを現実の長期タスク実行のために開発することを期待しています。
論文参考訳（メタデータ） (2025-10-29T17:32:49Z)
Automatically Generating Web Applications from Requirements Via Multi-Agent Test-Driven Development [34.560333810255464]
私たちは、エンドツーエンドのフルスタックWebアプリケーション生成のための最初のテスト駆動開発フレームワークであるTDDevを紹介します。自然言語の説明や設計イメージが与えられたら、TDDevは自動的に実行可能なテストケースを導き、フロントエンドとバックエンドのコードを生成し、ユーザーインタラクションをシミュレートします。本フレームワークは,ユーザ要求の不明確さ,複数ファイル間の複雑な相互依存性,機能的正当性と視覚的忠実性といった,フルスタック自動化における重要な課題に対処する。
論文参考訳（メタデータ） (2025-09-29T16:18:19Z)
You Don't Know Until You Click:Automated GUI Testing for Production-Ready Software Evaluation [24.956175875766952]
RealDevWorldは、大規模言語モデル(LLM)とソフトウェア開発におけるコードエージェントの評価フレームワークである。主なコンポーネントは、194のオープンエンドソフトウェアエンジニアリングタスクのコレクションであるRealDevBenchと、新しいエージェント・アズ・ア・ジャッジ評価システムであるAppEvalPilotだ。実証的な結果は、RealDevWorldが効果的で、自動で、そして、人間に沿った評価を提供することを示している。
論文参考訳（メタデータ） (2025-08-17T07:31:11Z)
Evaluating LLMs on Sequential API Call Through Automated Test Generation [10.621357661774244]
StateGenは、シーケンシャルなAPIインタラクションを含む多様なコーディングタスクを生成するように設計された、自動化されたフレームワークである。 3つの代表的なシナリオにまたがる120の検証済みのテストケースを含むベンチマークであるStateEvalを構築します。実験の結果、StateGenは挑戦的で現実的なAPI指向のタスクを効果的に生成できることを確認した。
論文参考訳（メタデータ） (2025-07-13T03:52:51Z)
Contextual Augmented Multi-Model Programming (CAMP): A Hybrid Local-Cloud Copilot Framework [8.28588489551341]
本稿では、Retrieval-Augmented Generation(RAG)を用いた局所モデルからなるマルチモデルAI支援プログラミングフレームワークであるCAMPを提案する。 RAGは、コンテキスト認識プロンプト構築を容易にするために、クラウドモデルからコンテキスト情報を取得する。この方法論は、Appleソフトウェアエコシステム向けに開発されたAI支援プログラミングツールであるCopilot for Xcodeで実現されている。
論文参考訳（メタデータ） (2024-10-20T04:51:24Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
LLM for Test Script Generation and Migration: Challenges, Capabilities, and Opportunities [8.504639288314063]
テストスクリプト生成はソフトウェアテストの重要なコンポーネントであり、反復的なテストタスクの効率的かつ信頼性の高い自動化を可能にする。既存の世代のアプローチは、さまざまなデバイス、プラットフォーム、アプリケーション間でテストスクリプトを正確にキャプチャし、再現することの難しさなど、しばしば制限に直面する。本稿では,モバイルアプリケーションテストスクリプト生成分野における大規模言語モデル(LLM)の適用について検討する。
論文参考訳（メタデータ） (2023-09-24T07:58:57Z)
ChatDev: Communicative Agents for Software Development [84.90400377131962]
ChatDevはチャットを利用したソフトウェア開発フレームワークで、特別なエージェントがコミュニケーション方法についてガイドされる。これらのエージェントは、統一された言語ベースのコミュニケーションを通じて、設計、コーディング、テストフェーズに積極的に貢献する。
論文参考訳（メタデータ） (2023-07-16T02:11:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。