論文の概要: Do LLMs Need to See Everything? A Benchmark and Study of Failures in LLM-driven Smartphone Automation using Screentext vs. Screenshots
- arxiv url: http://arxiv.org/abs/2604.17817v1
- Date: Mon, 20 Apr 2026 05:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.703857
- Title: Do LLMs Need to See Everything? A Benchmark and Study of Failures in LLM-driven Smartphone Automation using Screentext vs. Screenshots
- Title(参考訳): LLMはあらゆるものを見る必要があるか?スクリーンテキスト対スクリーンショットを用いたLCM駆動型スマートフォン自動化の失敗のベンチマークと研究
- Authors: Shiquan Zhang, Tianyi Zhang, Le Fang, Simon D'Alfonso, Hong Jia, Vassilis Kostakos,
- Abstract要約: DailyDroidは、25のAndroidアプリにまたがる5つのシナリオで75のタスクをベンチマークします。
GPT-4oとo4-miniのテキストのみとマルチモーダル(テキスト+スクリーンショット)入力を用いて300回の試験で評価し、マルチモーダル入力と同等の性能を示し、成功率を極端に向上させた。
- 参考スコア(独自算出の注目度): 15.63408997133083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of large language models (LLMs), mobile agents have emerged as promising tools for phone automation, simulating human interactions on screens to accomplish complex tasks. However, these agents often suffer from low accuracy, misinterpretation of user instructions, and failure on challenging tasks, with limited prior work examining why and where they fail. To address this, we introduce DailyDroid, a benchmark of 75 tasks in five scenarios across 25 Android apps, spanning three difficulty levels to mimic everyday smartphone use. We evaluate it using text-only and multimodal (text + screenshot) inputs on GPT-4o and o4-mini across 300 trials, revealing comparable performance with multimodal inputs yielding marginally higher success rates. Through in-depth failure analysis, we compile a handbook of common failures. Our findings reveal critical issues in UI accessibility, input modalities, and LLM/app design, offering implications for future mobile agents, applications, and UI development.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、モバイルエージェントは、複雑なタスクを達成するためにスクリーン上のヒューマンインタラクションをシミュレートする、電話自動化のための有望なツールとして登場した。
しかし、これらのエージェントは、しばしば低い精度、ユーザーの指示の誤解釈、困難なタスクの失敗に悩まされる。
これを解決するために、25のAndroidアプリで5つのシナリオで75のタスクをベンチマークしたDailyDroidを紹介した。
GPT-4oとo4-miniのテキストのみとマルチモーダル(テキスト+スクリーンショット)入力を用いて300回の試験で評価し、マルチモーダル入力と同等の性能を示し、成功率を極端に向上させた。
詳細な故障解析を通じて、一般的な故障のハンドブックをコンパイルする。
この結果から,UIアクセシビリティ,入力モダリティ,LLM/アプリ設計における重要な課題が明らかとなり,将来のモバイルエージェント,アプリケーション,UI開発に影響を及ぼす可能性が示唆された。
関連論文リスト
- MVISU-Bench: Benchmarking Mobile Agents for Real-World Tasks by Multi-App, Vague, Interactive, Single-App and Unethical Instructions [11.021990614727702]
textbfMVISU-Benchは137のモバイルアプリケーションに404のタスクを含むベンチマークである。
また,リスクを軽減し,モバイルエージェントのユーザ意図を明らかにするために,動的プロンプトプロンプトプロンプトとして機能するプラグイン・アンド・プレイモジュールであるAiderを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:18:30Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。
主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。
我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文 参考訳(メタデータ) (2023-08-29T13:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。