論文の概要: Log2Plan: An Adaptive GUI Automation Framework Integrated with Task Mining Approach
- arxiv url: http://arxiv.org/abs/2509.22137v1
- Date: Fri, 26 Sep 2025 09:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.35221
- Title: Log2Plan: An Adaptive GUI Automation Framework Integrated with Task Mining Approach
- Title(参考訳): Log2Plan:タスクマイニングアプローチを統合したアダプティブGUI自動化フレームワーク
- Authors: Seoyoung Lee, Seonbin Yoon, Seongbeen Lee, Hyesoo Kim, Joo Yong Sim,
- Abstract要約: 既存のVLMベースのプランナー・エグゼクタエージェントは、不安定な一般化、高いレイテンシ、限られた長距離コヒーレンスに悩まされている。
Log2Planは、構造化された2段階の計画フレームワークと、ユーザの振る舞いログに対するタスクマイニングアプローチを組み合わせることで、これらの制限に対処する。
実世界のタスク200件についてLog2Planを評価し,タスク成功率と実行時間を大幅に改善した。
- 参考スコア(独自算出の注目度): 1.7970227672578558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GUI task automation streamlines repetitive tasks, but existing LLM or VLM-based planner-executor agents suffer from brittle generalization, high latency, and limited long-horizon coherence. Their reliance on single-shot reasoning or static plans makes them fragile under UI changes or complex tasks. Log2Plan addresses these limitations by combining a structured two-level planning framework with a task mining approach over user behavior logs, enabling robust and adaptable GUI automation. Log2Plan constructs high-level plans by mapping user commands to a structured task dictionary, enabling consistent and generalizable automation. To support personalization and reuse, it employs a task mining approach from user behavior logs that identifies user-specific patterns. These high-level plans are then grounded into low-level action sequences by interpreting real-time GUI context, ensuring robust execution across varying interfaces. We evaluated Log2Plan on 200 real-world tasks, demonstrating significant improvements in task success rate and execution time. Notably, it maintains over 60.0% success rate even on long-horizon task sequences, highlighting its robustness in complex, multi-step workflows.
- Abstract(参考訳): GUIタスクの自動化は反復的なタスクを効率化するが、既存のLLMまたはVLMベースのプランナー実行エージェントは、不安定な一般化、高いレイテンシ、限られた長距離コヒーレンスに悩まされている。
シングルショットの推論や静的な計画に依存しているため、UIの変更や複雑なタスク下では脆弱である。
Log2Planは、構造化された2段階の計画フレームワークとユーザ動作ログ上のタスクマイニングアプローチを組み合わせて、堅牢で適応可能なGUI自動化を実現することで、これらの制限に対処する。
Log2Planは、ユーザコマンドを構造化されたタスク辞書にマッピングすることで、一貫性と一般化可能な自動化を可能にする。
パーソナライズと再利用をサポートするため、ユーザ固有のパターンを識別するユーザ行動ログからタスクマイニングアプローチを採用している。
これらのハイレベルプランは、リアルタイムGUIコンテキストを解釈し、さまざまなインターフェース間で堅牢な実行を保証することで、低レベルのアクションシーケンスに基礎を置いている。
実世界のタスク200件についてLog2Planを評価し,タスク成功率と実行時間を大幅に改善した。
特に、長期タスクシーケンスでも60.0%以上の成功率を維持しており、複雑なマルチステップワークフローにおける堅牢性を強調している。
関連論文リスト
- MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。
GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文 参考訳(メタデータ) (2025-07-25T17:59:26Z) - Building a Stable Planner: An Extended Finite State Machine Based Planning Module for Mobile GUI Agent [13.259836345131525]
タスク実行において視覚言語モデル(VLM)を誘導する実行計画を生成するための,プラグアンドプレイ計画モジュールであるSPlannerを提案する。
SPlannerは、Qwen2.5-VL-72BをVLMとして組み合わせた場合、63.8%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2025-05-20T09:45:55Z) - Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - Dynamic Planning for LLM-based Graphical User Interface Automation [48.31532014795368]
LLMベースのGUIエージェントのための動的思考計画(D-PoT)と呼ばれる新しいアプローチを提案する。
D-PoTは環境フィードバックと実行履歴に基づいて計画の動的調整を行う。
実験の結果、提案されたD-PoTは強いGPT-4Vベースラインを+12.7%上回った。
論文 参考訳(メタデータ) (2024-10-01T07:49:24Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Interactive Task Planning with Language Models [89.5839216871244]
対話型ロボットフレームワークは、長期のタスクプランニングを達成し、実行中であっても、新しい目標や異なるタスクに容易に一般化することができる。
最近の大規模言語モデルに基づくアプローチは、よりオープンな計画を可能にするが、しばしば、重いプロンプトエンジニアリングまたはドメイン固有の事前訓練されたモデルを必要とする。
言語モデルを用いた対話型タスクプランニングを実現するための,高レベルプランニングと低レベルスキル実行を併用したシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。