Fugu-MT 論文翻訳(概要): ActionEngine: From Reactive to Programmatic GUI Agents via State Machine Memory

論文の概要: ActionEngine: From Reactive to Programmatic GUI Agents via State Machine Memory

arxiv url: http://arxiv.org/abs/2602.20502v1
Date: Tue, 24 Feb 2026 03:03:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.588955
Title: ActionEngine: From Reactive to Programmatic GUI Agents via State Machine Memory
Title（参考訳）: ActionEngine: リアクティブからプログラム的なGUIエージェントへ
Authors: Hongbin Zhong, Fazle Faisal, Luis França, Tanakorn Leesatapornwongsa, Adriana Szekeres, Kexin Rong, Suman Nath,
Abstract要約: ActionEngineは、リアクティブ実行からプログラム計画に移行する、トレーニング不要のフレームワークである。我々のエージェントは、平均して1回のLDMコールで95%のタスク成功を達成するが、最強のビジョンのみのベースラインでは66%である。
参考スコア（独自算出の注目度）: 3.279665979821265
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing Graphical User Interface (GUI) agents operate through step-by-step calls to vision language models--taking a screenshot, reasoning about the next action, executing it, then repeating on the new page--resulting in high costs and latency that scale with the number of reasoning steps, and limited accuracy due to no persistent memory of previously visited pages. We propose ActionEngine, a training-free framework that transitions from reactive execution to programmatic planning through a novel two-agent architecture: a Crawling Agent that constructs an updatable state-machine memory of the GUIs through offline exploration, and an Execution Agent that leverages this memory to synthesize complete, executable Python programs for online task execution. To ensure robustness against evolving interfaces, execution failures trigger a vision-based re-grounding fallback that repairs the failed action and updates the memory. This design drastically improves both efficiency and accuracy: on Reddit tasks from the WebArena benchmark, our agent achieves 95% task success with on average a single LLM call, compared to 66% for the strongest vision-only baseline, while reducing cost by 11.8x and end-to-end latency by 2x. Together, these components yield scalable and reliable GUI interaction by combining global programmatic planning, crawler-validated action templates, and node-level execution with localized validation and repair.
Abstract（参考訳）: 既存のグラフィカルユーザインタフェース(GUI)エージェントは、視覚言語モデルへのステップバイステップの呼び出しで動作し、スクリーンショットを取得し、次のアクションを推論し、実行し、新しいページを繰り返す。オフライン探索によりGUIのアップダブルなステートマシンメモリを構築するCrawling Agentと、このメモリを活用して、オンラインタスク実行のための完全な実行可能なPythonプログラムを合成するExecution Agentを提案する。インターフェースの進化に対して堅牢性を確保するため、実行失敗は、失敗したアクションを修復し、メモリを更新するビジョンベースのリグラウンドフォールバックを起動する。 WebArenaベンチマークのRedditタスクでは、平均95%のタスク成功が達成され、平均して1回のLMコールで達成されるのに対し、最強のビジョンのみのベースラインでは66%、コストが11.8倍、エンドツーエンドのレイテンシは2倍に削減されます。これらのコンポーネントは、グローバルなプログラム計画、クローラバリデーションされたアクションテンプレート、ノードレベルの実行と局所的なバリデーションと修復を組み合わせることで、スケーラブルで信頼性の高いGUIインタラクションを提供する。

関連論文リスト

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces [65.11019654023978]
LongCLI-Benchは、長期にわたる現実的なタスクにまたがるエージェント能力を評価するために設計されたベンチマークである。私たちは、1000以上のコンピュータサイエンスの課題と現実世界のタスクから、20の高品質で長い水平タスクをキュレートしました。実験によると、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成する。
論文参考訳（メタデータ） (2026-02-15T23:12:57Z)
ANCHOR: Branch-Point Data Generation for GUI Agents [52.22377425487]
デスクトップ環境向けのエンドツーエンドGUIエージェントは、大量の高品質なインタラクションデータを必要とする。本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。 OSWorldとWindowsAgentArenaの標準デスクトップベンチマークの実験では、拡張されたコーパスに微調整されたモデルが一貫した改善を実現している。
論文参考訳（メタデータ） (2026-02-06T19:55:26Z)
EchoTrail-GUI: Building Actionable Memory for GUI Agents via Critic-Guided Self-Exploration [16.593979443102754]
エージェントに動的にアクセス可能なメモリを装備することで、人間のような体験学習を模倣する新しいフレームワークであるEchoTrail-GUIを紹介する。まず、エージェントがGUI環境と自律的に対話して、成功しているタスク軌跡のキュレートされたデータベースを構築し、報酬モデルで検証する。第2に、メモリインジェクションの段階では、新しいタスクを受信すると、最も関連性の高い過去の軌跡を効率よく検索して「記憶」として機能させる。第3に、GUIタスク推論において、これらの記憶は、エージェントの推論と意思決定プロセスに通知するためのコンテキスト内ガイダンスとして注入される。
論文参考訳（メタデータ） (2025-12-22T13:42:18Z)
GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文参考訳（メタデータ） (2025-11-06T12:19:02Z)
CoAct-1: Computer-using Agents with Coding as Actions [94.99657662893338]
CoAct-1はGUIベースの制御と直接プログラム実行を組み合わせた新しいマルチエージェントシステムである。我々は、CoAct-1が60.76%の最先端の成功率を達成したOSWorldベンチマークで、我々のシステムを評価した。
論文参考訳（メタデータ） (2025-08-05T21:33:36Z)
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。 GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文参考訳（メタデータ） (2025-07-25T17:59:26Z)
Chain-of-Memory: Enhancing GUI Agents for Cross-Application Navigation [6.815990151030097]
CoM(Chain-of-Memory)は、GUI(Graphical User Interface)エージェントにおいて、短期記憶と長期記憶を明示的にモデル化するための新しいアプローチである。 CoMはGUIエージェントがタスク状態を理解し、重要な履歴情報を永続的に保持することを可能にする。
論文参考訳（メタデータ） (2025-06-22T20:17:46Z)
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文参考訳（メタデータ） (2025-06-05T04:12:36Z)
MAPLE: A Mobile Agent with Persistent Finite State Machines for Structured Task Reasoning [46.18718721121415]
アプリケーションインタラクションをFSM(Finite State Machine)として抽象化する,状態認識型マルチエージェントフレームワークMAPLEを提案する。それぞれのUI画面を離散状態として、ユーザアクションをトランジションとしてモデル化し、FSMがアプリケーション実行の構造化された表現を提供できるようにします。 MAPLEは、計画、実行、検証、エラー回復、知識保持という4段階のタスク実行に責任を持つ特殊エージェントで構成されている。
論文参考訳（メタデータ） (2025-05-29T16:08:51Z)
ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-20T15:28:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。