論文の概要: Training High-Level Schedulers with Execution-Feedback Reinforcement Learning for Long-Horizon GUI Automation
- arxiv url: http://arxiv.org/abs/2511.22235v1
- Date: Thu, 27 Nov 2025 09:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.467053
- Title: Training High-Level Schedulers with Execution-Feedback Reinforcement Learning for Long-Horizon GUI Automation
- Title(参考訳): 長距離GUI自動化のための実行フィードバック強化学習による高レベルスケジューリングの訓練
- Authors: Zehao Deng, Tianjie Ju, Zheng Wu, Zhuosheng Zhang, Gongshen Liu,
- Abstract要約: シングルエージェントGUIエージェントは、ハイレベルな機能と低レベルな実行能力のバランスをとるのに苦労する。
統一されたポリシーモデルのトレーニングとは異なり、私たちはハイレベルなスケジューリングモデルのトレーニングに重点を置いています。
低レベルのExecutorモデルと統合可能なCoordinator-Executor-State Trackerフレームワークを構築します。
- 参考スコア(独自算出の注目度): 25.0921056409982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of large vision-language model (VLM) has greatly promoted the research of GUI agent. However, GUI agents still face significant challenges in handling long-horizon tasks. First, single-agent models struggle to balance high-level capabilities and low-level execution capability, facing prevalent issues of responsibility coupling and capability conflicts. Second, agents lack awareness of the task state, leading to progress loss in long-horizon tasks. To address these challenges, we propose a staged execution-feedback reinforcement learning algorithm. Unlike training a unified policy model, we focus on training high-level scheduling models. Specifically, we propose and train two agents: a Coordinator, responsible for the strategic planning and task decomposition; and a State Tracker, responsible for context compression and information management to maintain the task's state and coherence. Based on this, we built the Coordinator-Executor-State Tracker (CES) multi-agent framework, which can be integrated with any low-level Executor model, assisting the Executor in solving long-horizon tasks through task scheduling and state management. Experiments on long-horizon task benchmarks demonstrate that CES significantly enhances the system's planning and state management capabilities. Furthermore, analysis confirms that our trained high-level scheduling module is a generalizable, plug-and-play module that significantly enhances the long-horizon capabilities of various Executors. Code can be available at https://github.com/hehehahi4/CES.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)の急速な発展はGUIエージェントの研究を大いに推進している。
しかし、GUIエージェントは長い水平タスクを扱う上で大きな課題に直面している。
まず、単一エージェントモデルは高レベルの機能と低レベルの実行能力のバランスをとるのに苦労します。
第2に、エージェントはタスク状態の認識を欠き、長期的タスクの進行損失につながる。
これらの課題に対処するため、我々は段階的な実行フィードバック強化学習アルゴリズムを提案する。
統一されたポリシーモデルのトレーニングとは異なり、私たちはハイレベルなスケジューリングモデルのトレーニングに重点を置いています。
具体的には、戦略的計画とタスクの分解を担当するコーディネータと、タスクの状態と一貫性を維持するためのコンテキスト圧縮と情報管理を担当するステートトラッカの2つのエージェントを提案し、訓練する。
そこで我々は,タスクスケジューリングと状態管理による長期タスクの解決を支援するために,任意の低レベルな実行モデルと統合可能な,コーディネータ・実行時追跡(CES)マルチエージェントフレームワークを構築した。
長期タスクベンチマークの実験は、CESがシステムの計画と状態管理能力を著しく向上させることを示した。
さらに,我々の学習した高レベルスケジューリングモジュールは,様々なエクゼクタの長期的機能を大幅に向上させる汎用的なプラグイン・アンド・プレイモジュールであることを確認した。
コードはhttps://github.com/hehehahi4/CESで入手できる。
関連論文リスト
- Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation [57.12284831164602]
モバイルエージェントは膨大な可能性を示しているが、現在のSoTA(State-of-the-art)エージェントは、現実世界、長期的、クロスアプリケーションタスクに不適切な成功率を示す。
本稿では,新しい階層型マルチエージェントフレームワークであるMobile-Agent-RAGを提案する。
論文 参考訳(メタデータ) (2025-11-15T15:22:42Z) - CHOP: Mobile Operating Assistant with Constrained High-frequency Optimized Subtask Planning [18.826366389246385]
制約付き高周波最適化計画(CHOP)を用いた新しいモバイルアシスタントアーキテクチャを提案する。
提案手法は,人計画サブタスクをベースベクトルとしてGUIシナリオ計画におけるVLMの欠如を克服する。
当社のアーキテクチャを20アプリにわたる英語と中国語のコンテキストで評価し、有効性と効率の両面で大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-03-05T18:56:16Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation [23.026244256950086]
MLLMベースのモバイルアシスタントシステムであるMobAを提案する。
本稿では,エラー復旧のためのリフレクション機構を組み込んだ適応計画モジュールを提案する。
複雑なモバイルインタラクション用に設計されたデータセットであるMobBenchについても紹介する。
論文 参考訳(メタデータ) (2024-10-17T16:53:50Z) - PlanDQ: Hierarchical Plan Orchestration via D-Conductor and Q-Performer [47.924941959320996]
我々はPlanDQと呼ばれるオフラインRL用に設計された階層型プランナを提案する。
PlanDQはD-Conductorという名前の拡散型プランナーを高レベルに組み込んでおり、サブゴールを通じて低レベル政策を導く。
低レベルでは、これらのサブゴールを達成するためにQ-Performerと呼ばれるQ-ラーニングベースのアプローチを使用しました。
論文 参考訳(メタデータ) (2024-06-10T20:59:53Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Hierarchically Structured Scheduling and Execution of Tasks in a
Multi-Agent Environment [1.0660480034605238]
倉庫環境では、タスクが動的に出現するので、早すぎると労働力にマッチするタスク管理システムは、必ずしも最適ではない。
本稿では,高レベルスケジューリング問題と低レベルマルチエージェント問題の両方を解決するために,深層強化学習を提案する。
論文 参考訳(メタデータ) (2022-03-06T18:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。