論文の概要: Building a Stable Planner: An Extended Finite State Machine Based Planning Module for Mobile GUI Agent
- arxiv url: http://arxiv.org/abs/2505.14141v1
- Date: Tue, 20 May 2025 09:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.040163
- Title: Building a Stable Planner: An Extended Finite State Machine Based Planning Module for Mobile GUI Agent
- Title(参考訳): 安定プランナーの構築:モバイルGUIエージェントのための拡張有限状態マシンベースの計画モジュール
- Authors: Fanglin Mo, Junzhe Chen, Haoxuan Zhu, Xuming Hu,
- Abstract要約: タスク実行において視覚言語モデル(VLM)を誘導する実行計画を生成するための,プラグアンドプレイ計画モジュールであるSPlannerを提案する。
SPlannerは、Qwen2.5-VL-72BをVLMとして組み合わせた場合、63.8%のタスク成功率を達成した。
- 参考スコア(独自算出の注目度): 13.259836345131525
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mobile GUI agents execute user commands by directly interacting with the graphical user interface (GUI) of mobile devices, demonstrating significant potential to enhance user convenience. However, these agents face considerable challenges in task planning, as they must continuously analyze the GUI and generate operation instructions step by step. This process often leads to difficulties in making accurate task plans, as GUI agents lack a deep understanding of how to effectively use the target applications, which can cause them to become "lost" during task execution. To address the task planning issue, we propose SPlanner, a plug-and-play planning module to generate execution plans that guide vision language model(VLMs) in executing tasks. The proposed planning module utilizes extended finite state machines (EFSMs) to model the control logits and configurations of mobile applications. It then decomposes a user instruction into a sequence of primary function modeled in EFSMs, and generate the execution path by traversing the EFSMs. We further refine the execution path into a natural language plan using an LLM. The final plan is concise and actionable, and effectively guides VLMs to generate interactive GUI actions to accomplish user tasks. SPlanner demonstrates strong performance on dynamic benchmarks reflecting real-world mobile usage. On the AndroidWorld benchmark, SPlanner achieves a 63.8% task success rate when paired with Qwen2.5-VL-72B as the VLM executor, yielding a 28.8 percentage point improvement compared to using Qwen2.5-VL-72B without planning assistance.
- Abstract(参考訳): モバイルGUIエージェントは、モバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することでユーザコマンドを実行する。
しかし、これらのエージェントは、GUIを継続的に分析し、ステップごとに操作指示を生成する必要があるため、タスク計画においてかなりの課題に直面している。
このプロセスは、GUIエージェントがターゲットのアプリケーションを効果的に利用する方法を深く理解していないため、タスク実行中に「失われた」ことになるため、正確なタスク計画を作成するのが困難になることが多い。
本研究では,タスク実行時に視覚言語モデル(VLM)を誘導する実行計画を生成するプラグイン・アンド・プレイ・プランニングモジュールであるSPlannerを提案する。
提案する計画モジュールは、拡張有限状態マシン(EFSM)を使用して、モバイルアプリケーションの制御ログと設定をモデル化する。
その後、ユーザ命令をEFSMでモデル化されたプライマリ関数のシーケンスに分解し、EFSMをトラバースすることで実行パスを生成する。
LLMを用いて、実行経路を自然言語プランに洗練する。
最終的な計画は簡潔で実行可能であり、VLMを効果的に誘導してユーザタスクを達成するインタラクティブなGUIアクションを生成する。
SPlannerは、実世界のモバイル利用を反映した動的ベンチマークで強力なパフォーマンスを示す。
AndroidWorldベンチマークでは、Qwen2.5-VL-72BをVLMエグゼキュータとして組み合わせると63.8%のタスク成功率が達成され、計画なしでQwen2.5-VL-72Bを使用するよりも28.8ポイント改善された。
関連論文リスト
- CHOP: Mobile Operating Assistant with Constrained High-frequency Optimized Subtask Planning [18.826366389246385]
制約付き高周波最適化計画(CHOP)を用いた新しいモバイルアシスタントアーキテクチャを提案する。
提案手法は,人計画サブタスクをベースベクトルとしてGUIシナリオ計画におけるVLMの欠如を克服する。
当社のアーキテクチャを20アプリにわたる英語と中国語のコンテキストで評価し、有効性と効率の両面で大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-03-05T18:56:16Z) - Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - Dynamic Planning for LLM-based Graphical User Interface Automation [48.31532014795368]
LLMベースのGUIエージェントのための動的思考計画(D-PoT)と呼ばれる新しいアプローチを提案する。
D-PoTは環境フィードバックと実行履歴に基づいて計画の動的調整を行う。
実験の結果、提案されたD-PoTは強いGPT-4Vベースラインを+12.7%上回った。
論文 参考訳(メタデータ) (2024-10-01T07:49:24Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Long-Horizon Planning and Execution with Functional Object-Oriented
Networks [79.94575713911189]
タスク計画と実行のためのFOONとしてオブジェクトレベルの知識を活用するというアイデアを紹介します。
提案手法では,FOONをPDDLに自動変換し,市販のプランナ,アクションコンテキスト,ロボットスキルを活用する。
我々はCoppeliaSimの長期タスクに対するアプローチを実証し、学習されたアクションコンテキストを、これまで見たことのないシナリオにどのように拡張できるかを示す。
論文 参考訳(メタデータ) (2022-07-12T19:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。