Fugu-MT 論文翻訳(概要): Building a Stable Planner: An Extended Finite State Machine Based Planning Module for Mobile GUI Agent

論文の概要: Building a Stable Planner: An Extended Finite State Machine Based Planning Module for Mobile GUI Agent

arxiv url: http://arxiv.org/abs/2505.14141v1
Date: Tue, 20 May 2025 09:45:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:53.040163
Title: Building a Stable Planner: An Extended Finite State Machine Based Planning Module for Mobile GUI Agent
Title（参考訳）: 安定プランナーの構築:モバイルGUIエージェントのための拡張有限状態マシンベースの計画モジュール
Authors: Fanglin Mo, Junzhe Chen, Haoxuan Zhu, Xuming Hu,
Abstract要約: タスク実行において視覚言語モデル(VLM)を誘導する実行計画を生成するための,プラグアンドプレイ計画モジュールであるSPlannerを提案する。 SPlannerは、Qwen2.5-VL-72BをVLMとして組み合わせた場合、63.8%のタスク成功率を達成した。
参考スコア（独自算出の注目度）: 13.259836345131525
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Mobile GUI agents execute user commands by directly interacting with the graphical user interface (GUI) of mobile devices, demonstrating significant potential to enhance user convenience. However, these agents face considerable challenges in task planning, as they must continuously analyze the GUI and generate operation instructions step by step. This process often leads to difficulties in making accurate task plans, as GUI agents lack a deep understanding of how to effectively use the target applications, which can cause them to become "lost" during task execution. To address the task planning issue, we propose SPlanner, a plug-and-play planning module to generate execution plans that guide vision language model(VLMs) in executing tasks. The proposed planning module utilizes extended finite state machines (EFSMs) to model the control logits and configurations of mobile applications. It then decomposes a user instruction into a sequence of primary function modeled in EFSMs, and generate the execution path by traversing the EFSMs. We further refine the execution path into a natural language plan using an LLM. The final plan is concise and actionable, and effectively guides VLMs to generate interactive GUI actions to accomplish user tasks. SPlanner demonstrates strong performance on dynamic benchmarks reflecting real-world mobile usage. On the AndroidWorld benchmark, SPlanner achieves a 63.8% task success rate when paired with Qwen2.5-VL-72B as the VLM executor, yielding a 28.8 percentage point improvement compared to using Qwen2.5-VL-72B without planning assistance.
Abstract（参考訳）: モバイルGUIエージェントは、モバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することでユーザコマンドを実行する。しかし、これらのエージェントは、GUIを継続的に分析し、ステップごとに操作指示を生成する必要があるため、タスク計画においてかなりの課題に直面している。このプロセスは、GUIエージェントがターゲットのアプリケーションを効果的に利用する方法を深く理解していないため、タスク実行中に「失われた」ことになるため、正確なタスク計画を作成するのが困難になることが多い。本研究では,タスク実行時に視覚言語モデル(VLM)を誘導する実行計画を生成するプラグイン・アンド・プレイ・プランニングモジュールであるSPlannerを提案する。提案する計画モジュールは、拡張有限状態マシン(EFSM)を使用して、モバイルアプリケーションの制御ログと設定をモデル化する。その後、ユーザ命令をEFSMでモデル化されたプライマリ関数のシーケンスに分解し、EFSMをトラバースすることで実行パスを生成する。 LLMを用いて、実行経路を自然言語プランに洗練する。最終的な計画は簡潔で実行可能であり、VLMを効果的に誘導してユーザタスクを達成するインタラクティブなGUIアクションを生成する。 SPlannerは、実世界のモバイル利用を反映した動的ベンチマークで強力なパフォーマンスを示す。 AndroidWorldベンチマークでは、Qwen2.5-VL-72BをVLMエグゼキュータとして組み合わせると63.8%のタスク成功率が達成され、計画なしでQwen2.5-VL-72Bを使用するよりも28.8ポイント改善された。

関連論文リスト

MapAgent: Trajectory-Constructed Memory-Augmented Planning for Mobile Task Automation [5.433829353194621]
MapAgentは、過去のトラジェクトリから構築されたメモリを活用して、現在のタスク計画を強化するフレームワークである。本稿では,メモリデータベースから関連ページを類似性に基づいて検索するタスクプランニング手法を提案する。実世界のシナリオにおける結果は、MapAgentが既存のメソッドよりも優れたパフォーマンスを実現していることを示している。
論文参考訳（メタデータ） (2025-07-29T16:05:32Z)
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。 GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文参考訳（メタデータ） (2025-07-25T17:59:26Z)
Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-05-12T12:38:20Z)
CHOP: Mobile Operating Assistant with Constrained High-frequency Optimized Subtask Planning [18.826366389246385]
制約付き高周波最適化計画(CHOP)を用いた新しいモバイルアシスタントアーキテクチャを提案する。提案手法は,人計画サブタスクをベースベクトルとしてGUIシナリオ計画におけるVLMの欠如を克服する。当社のアーキテクチャを20アプリにわたる英語と中国語のコンテキストで評価し、有効性と効率の両面で大幅に改善したことを示す。
論文参考訳（メタデータ） (2025-03-05T18:56:16Z)
Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文参考訳（メタデータ） (2025-02-20T13:47:51Z)
VeriGraph: Scene Graphs for Execution Verifiable Robot Planning [33.8868315479384]
本稿では,ロボット計画のための視覚言語モデル(VLM)を統合するフレームワークであるVeriGraphを提案する。 VeriGraphはシーングラフを中間表現として使用し、キーオブジェクトと空間関係をキャプチャして、計画検証と改善を改善する。提案手法は,多様な操作シナリオにおけるタスク完了率を大幅に向上させ,言語ベースタスクでは58%,画像ベースタスクでは30%,ベースラインメソッドでは58%向上させる。
論文参考訳（メタデータ） (2024-11-15T18:59:51Z)
Dynamic Planning for LLM-based Graphical User Interface Automation [48.31532014795368]
LLMベースのGUIエージェントのための動的思考計画(D-PoT)と呼ばれる新しいアプローチを提案する。 D-PoTは環境フィードバックと実行履歴に基づいて計画の動的調整を行う。実験の結果、提案されたD-PoTは強いGPT-4Vベースラインを+12.7%上回った。
論文参考訳（メタデータ） (2024-10-01T07:49:24Z)
VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文参考訳（メタデータ） (2024-06-14T17:59:08Z)
ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-20T15:28:38Z)
Learning adaptive planning representations with natural language guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。 Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文参考訳（メタデータ） (2023-12-13T23:35:31Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
Long-Horizon Planning and Execution with Functional Object-Oriented Networks [79.94575713911189]
タスク計画と実行のためのFOONとしてオブジェクトレベルの知識を活用するというアイデアを紹介します。提案手法では,FOONをPDDLに自動変換し,市販のプランナ,アクションコンテキスト,ロボットスキルを活用する。我々はCoppeliaSimの長期タスクに対するアプローチを実証し、学習されたアクションコンテキストを、これまで見たことのないシナリオにどのように拡張できるかを示す。
論文参考訳（メタデータ） (2022-07-12T19:29:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。