論文の概要: MobileDev-Bench: A Comprehensive Benchmark for Evaluating Language Models on Mobile Application Development
- arxiv url: http://arxiv.org/abs/2603.24946v1
- Date: Thu, 26 Mar 2026 02:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.055088
- Title: MobileDev-Bench: A Comprehensive Benchmark for Evaluating Language Models on Mobile Application Development
- Title(参考訳): MobileDev-Bench: モバイルアプリケーション開発における言語モデル評価のための総合ベンチマーク
- Authors: Moshood A. Fakorede, Krishna Upadhyay, A. B. Siddique, Umar Farooq,
- Abstract要約: Android Native(Java/Kotlin)、React Native(TypeScript)、Flutter(Dart)にまたがる18のプロダクションモバイルアプリケーションから収集された384の現実世界の課題解決タスクからなるベンチマークであるMobileDev-Benchを紹介した。
各タスクは、実行可能テストパッチと開発者が報告した問題にペアリングし、モバイルビルド環境内でモデル生成の修正を完全に自動検証することを可能にする。
GPT-5.2, Claude Sonnet 4.5, Gemini Flash 2.5, Qwen3-Coder の4つの最先端コード対応LCMの評価
- 参考スコア(独自算出の注目度): 1.4302803674538154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown strong performance on automated software engineering tasks, yet existing benchmarks focus primarily on general-purpose libraries or web applications, leaving mobile application development largely unexplored despite its strict platform constraints, framework-driven lifecycles, and complex platform API interactions. We introduce MobileDev-Bench, a benchmark comprising 384 real-world issue-resolution tasks collected from 18 production mobile applications spanning Android Native (Java/Kotlin), React Native (TypeScript), and Flutter (Dart). Each task pairs an authentic developer-reported issue with executable test patches, enabling fully automated validation of model-generated fixes within mobile build environments. The benchmark exhibits substantial patch complexity: fixes modify 12.5 files and 324.9 lines on average, and 35.7% of instances require coordinated changes across multiple artifact types, such as source and manifest files. Evaluation of four state-of-the-art code-capable LLMs, GPT- 5.2, Claude Sonnet 4.5, Gemini Flash 2.5, and Qwen3-Coder, yields low end-to-end resolution rates of 3.39%-5.21%, revealing significant performance gaps compared to prior benchmarks. Further analysis reveals systematic failure modes, with fault localization across multi-file and multi-artifact changes emerging as the primary bottleneck.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、自動化されたソフトウェアエンジニアリングタスクに強いパフォーマンスを示していますが、既存のベンチマークは主に汎用ライブラリやWebアプリケーションに焦点を当てています。
Android Native(Java/Kotlin)、React Native(TypeScript)、Flutter(Dart)にまたがる18のプロダクションモバイルアプリケーションから収集された384の現実世界の課題解決タスクからなるベンチマークであるMobileDev-Benchを紹介した。
各タスクは、実行可能テストパッチと開発者が報告した問題にペアリングし、モバイルビルド環境内でモデル生成の修正を完全に自動検証することを可能にする。
12.5ファイルと324.9行を平均で修正し、35.7%のインスタンスはソースファイルやマニフェストファイルなど、複数のアーティファクトタイプで調整された変更を必要とする。
GPT-5.2、Claude Sonnet 4.5、Gemini Flash 2.5、Qwen3-Coderの4つの最先端のLLMの評価では、エンドツーエンドの解像度が3.39%-5.21%と低くなり、以前のベンチマークと比べて大きな性能差が見られた。
さらに分析した結果,マルチファイルとマルチアーティファクトにまたがる障害ローカライゼーションが主なボトルネックとして浮上する,系統的な障害モードが明らかになった。
関連論文リスト
- AndroidLens: Long-latency Evaluation with Nested Sub-targets for Android GUI Agents [36.66219528445988]
モバイルGUIエージェントのための挑戦的な評価フレームワークであるAndroidLensを紹介する。
中国語と英語の両方の環境での長時間のタスクは571である。
我々の評価では、最高のモデルでさえ、12.7%のタスク成功率と50.47%のATPにしか達していない。
論文 参考訳(メタデータ) (2025-12-24T17:40:42Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - ColorBench: Benchmarking Mobile Agents with Graph-Structured Framework for Complex Long-Horizon Tasks [37.79008306764891]
実世界のタスクは複雑で、複数の有効なソリューションが可能である。
オフラインベンチマークは、1つの事前定義された"ゴールドパス"のみを検証することができる
オンライン動的テストは、実際のデバイスの複雑さと非再現性によって制約される。
本稿では,新しいグラフ構造化ベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-16T12:30:05Z) - AppForge: From Assistant to Independent Developer - Are GPTs Ready for Software Development? [28.63033734662797]
APPFORGEは、現実世界のAndroidアプリから引き出された101のソフトウェア開発問題からなるベンチマークである。
アプリケーション文書から主要な機能を自動で要約するマルチエージェントシステムを設計し、テストケースを合成するためにアプリをナビゲートする。
Android開発専門家による厳格な手作業による検証に続いて、APPFORGEでは、テストケースを自動評価フレームワークに組み込んでいる。
論文 参考訳(メタデータ) (2025-10-09T03:26:05Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - BLAZE: Cross-Language and Cross-Project Bug Localization via Dynamic Chunking and Hard Example Learning [1.9854146581797698]
BLAZEは動的チャンキングとハードサンプル学習を採用するアプローチである。
プロジェクト横断と言語横断のバグローカライゼーションを強化するために、難しいバグケースを使用してGPTベースのモデルを微調整する。
BLAZEは、トップ1の精度で120%、平均平均精度(MAP)で144%、平均相互ランク(MRR)で100%上昇する。
論文 参考訳(メタデータ) (2024-07-24T20:44:36Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。