論文の概要: BEAP-Agent: Backtrackable Execution and Adaptive Planning for GUI Agents
- arxiv url: http://arxiv.org/abs/2601.21352v1
- Date: Thu, 29 Jan 2026 07:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.645117
- Title: BEAP-Agent: Backtrackable Execution and Adaptive Planning for GUI Agents
- Title(参考訳): BEAP-Agent:GUIエージェントのバックトラック可能な実行と適応計画
- Authors: Ziyu Lu, Tengjin Weng, Yiying Yang, Yuhang Zhao, Xinxin Huang, Wenhao Jiang,
- Abstract要約: 既存のGUIエージェントは、誤った探索パスを辿ると回復に苦労し、しばしばタスクの失敗につながる。
BEAP-Agentは、動的タスク追跡と更新を伴う長距離多レベル状態のバックトラックをサポートするフレームワークである。
- 参考スコア(独自算出の注目度): 10.011001146444325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GUI agents are designed to automate repetitive tasks and enhance productivity. However, existing GUI agents struggle to recover once they follow an incorrect exploration path, often leading to task failure. In this work, we model GUI task execution as a DFS process and propose BEAP-Agent, a DFS-based framework that supports long-range, multi-level state backtracking with dynamic task tracking and updating. The framework consists of three collaborative components: Planner, Executor, and Tracker. Together, they enable effective task exploration and execution. BEAP-Agent fills the gap in systematic backtracking mechanisms for GUI agents, offering a systematic solution for long-horizon task exploration. We conducted a systematic evaluation on the OSWorld benchmark, where BEAP-Agent achieved an accuracy of 28.2%, validating the effectiveness of the proposed method.
- Abstract(参考訳): GUIエージェントは繰り返しタスクを自動化し、生産性を向上させるように設計されている。
しかし、既存のGUIエージェントは、誤った探索パスをたどると回復に苦労し、しばしばタスクの失敗につながる。
本稿では、GUIタスク実行をDFSプロセスとしてモデル化し、動的タスクトラッキングと更新による長距離多レベル状態追跡をサポートするBEAP-Agentを提案する。
フレームワークは、Planner、Executor、Trackerの3つの共同コンポーネントで構成されている。
同時に、効果的なタスク探索と実行を可能にします。
BEAP-AgentはGUIエージェントの系統的なバックトラック機構のギャップを埋め、長期タスク探索のための体系的なソリューションを提供する。
BEAP-Agentを28.2%の精度で評価し,提案手法の有効性を検証した。
関連論文リスト
- EchoTrail-GUI: Building Actionable Memory for GUI Agents via Critic-Guided Self-Exploration [16.593979443102754]
エージェントに動的にアクセス可能なメモリを装備することで、人間のような体験学習を模倣する新しいフレームワークであるEchoTrail-GUIを紹介する。
まず、エージェントがGUI環境と自律的に対話して、成功しているタスク軌跡のキュレートされたデータベースを構築し、報酬モデルで検証する。
第2に、メモリインジェクションの段階では、新しいタスクを受信すると、最も関連性の高い過去の軌跡を効率よく検索して「記憶」として機能させる。
第3に、GUIタスク推論において、これらの記憶は、エージェントの推論と意思決定プロセスに通知するためのコンテキスト内ガイダンスとして注入される。
論文 参考訳(メタデータ) (2025-12-22T13:42:18Z) - GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文 参考訳(メタデータ) (2025-11-06T12:19:02Z) - Log2Plan: An Adaptive GUI Automation Framework Integrated with Task Mining Approach [1.7970227672578558]
既存のVLMベースのプランナー・エグゼクタエージェントは、不安定な一般化、高いレイテンシ、限られた長距離コヒーレンスに悩まされている。
Log2Planは、構造化された2段階の計画フレームワークと、ユーザの振る舞いログに対するタスクマイニングアプローチを組み合わせることで、これらの制限に対処する。
実世界のタスク200件についてLog2Planを評価し,タスク成功率と実行時間を大幅に改善した。
論文 参考訳(メタデータ) (2025-09-26T09:56:44Z) - Instruction Agent: Enhancing Agent with Expert Demonstration [12.67489098612846]
グラフィカルユーザインタフェース(GUI)エージェントは急速に進歩しているが、新しいUI要素、長い水平動作、パーソナライズされた軌跡を含む複雑なタスクに苦戦している。
そこで本研究では,GUIエージェントであるインストラクションエージェントを導入し,このようなタスクを専門的なデモンストレーションで解決し,それ以外は困難なタスクの完了を可能にする。
1つのデモンストレーションが与えられた場合、エージェントはステップバイステップの指示を抽出し、ユーザが意図した軌道を厳密に追従することで実行します。
論文 参考訳(メタデータ) (2025-09-08T18:00:12Z) - CoAct-1: Computer-using Agents with Coding as Actions [94.99657662893338]
CoAct-1はGUIベースの制御と直接プログラム実行を組み合わせた新しいマルチエージェントシステムである。
我々は、CoAct-1が60.76%の最先端の成功率を達成したOSWorldベンチマークで、我々のシステムを評価した。
論文 参考訳(メタデータ) (2025-08-05T21:33:36Z) - MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。
GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文 参考訳(メタデータ) (2025-07-25T17:59:26Z) - BacktrackAgent: Enhancing GUI Agent with Error Detection and Backtracking Mechanism [11.786947907397131]
BacktrackAgentは、タスク完了効率を改善するバックトラック機構を組み込んだフレームワークである。
BacktrackAgentはMobile3MとAuto-UIベンチマークでタスク成功率とステップ精度の両方でパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2025-05-27T03:09:06Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。