論文の概要: SWE-Bench Mobile: Can Large Language Model Agents Develop Industry-Level Mobile Applications?
- arxiv url: http://arxiv.org/abs/2602.09540v1
- Date: Tue, 10 Feb 2026 08:51:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.459805
- Title: SWE-Bench Mobile: Can Large Language Model Agents Develop Industry-Level Mobile Applications?
- Title(参考訳): SWE-Bench Mobile: 大規模言語モデルエージェントは,産業レベルのモバイルアプリを開発することができるか?
- Authors: Muxin Tian, Zhe Wang, Blair Yang, Zhenwei Tang, Kunlun Zhu, Honghua Dong, Hanchen Li, Xinni Xie, Guangjing Wang, Jiaxuan You,
- Abstract要約: SWE-Bench Mobileは、実運用iOSから派生した現実的なソフトウェアエンジニアリングタスクのコーディングエージェントを評価するためのベンチマークである。
孤立した問題やバグ修正に焦点を当てた既存のベンチマークとは異なり、SWE-Bench Mobileは産業開発における完全な複雑さを捉えている。
- 参考スコア(独自算出の注目度): 21.241252187534055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can large language model agents develop industry-level mobile applications? We introduce \textbf{SWE-Bench Mobile}, a benchmark for evaluating coding agents on realistic software engineering tasks derived from a production iOS codebase. Unlike existing benchmarks that focus on isolated problems or bug fixes, SWE-Bench Mobile captures the full complexity of industrial development: multi-modal inputs (PRDs and Figma designs), a large-scale mixed Swift/Objective-C codebase, and comprehensive test suites. We evaluate 22 agent-model configurations across four coding agents -- three commercial (Cursor, Codex, Claude Code) and one open-source (OpenCode) -- and find that even the best configurations achieve only 12\% task success rate. Our analysis reveals that (1) agent design matters as much as model capability -- the same model shows up to 6$\times$ performance gap across agents, (2) commercial agents consistently outperform open-source alternatives, and (3) simple ``Defensive Programming'' prompts outperform complex ones by 7.4\%. These findings highlight a significant gap between current agent capabilities and industrial requirements, while providing actionable insights for practitioners and researchers. We release SWE-Bench Mobile as a \textit{hosted benchmark challenge} to prevent data contamination and ensure fair evaluation. The public leaderboard and development toolkit are available at https://swebenchmobile.com.
- Abstract(参考訳): 大規模言語モデルエージェントは産業レベルのモバイルアプリケーションを開発することができるか?
実運用iOSコードベースから派生した現実的なソフトウェアエンジニアリングタスクのコーディングエージェントを評価するためのベンチマークである。
独立した問題やバグフィックスにフォーカスする既存のベンチマークとは異なり、SWE-Bench Mobileは、マルチモーダルインプット(PRDとFigmaの設計)、大規模に混合されたSwift/Objective-Cコードベース、包括的なテストスイートといった、産業開発の全複雑さを捉えている。
我々は、4つのコーディングエージェント(Cursor, Codex, Claude Code)と1つのオープンソース(OpenCode)の22のエージェントモデル構成を評価します。そして、最高の構成でさえ、たった12倍のタスク成功率しか達成できないことを発見します。
これらの知見は、現在のエージェント能力と工業的要件との間に大きなギャップを浮き彫りにし、実践者や研究者に実用的な洞察を与えている。
SWE-Bench Mobile を \textit{hosted benchmark challenge} としてリリースし、データの汚染を防止し、公正な評価を保証する。
公開リーダボードと開発ツールキットはhttps://swebenchmobile.comで公開されている。
関連論文リスト
- SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。
SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。
SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文 参考訳(メタデータ) (2025-11-07T18:01:32Z) - A3: Android Agent Arena for Mobile GUI Agents [46.73085454978007]
モバイルGUIエージェントは、モバイルデバイス上で自律的にタスクを実行するように設計されている。
Android Agent Arena (A3)は、現実の、開発中のタスクのパフォーマンスを評価するための、新しい評価プラットフォームである。
A3には、広く使われている21の一般サードパーティアプリと、一般的なユーザシナリオを表す201のタスクが含まれている。
論文 参考訳(メタデータ) (2025-01-02T09:03:56Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents [7.4568642040547894]
大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話できることから、ますます人気が高まっている。
学術部門と産業部門の両方で有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークすることに注力する研究はほとんどない。
我々は、広範囲な手動テストの負担を軽減するために、効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。
論文 参考訳(メタデータ) (2024-06-12T13:14:50Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。