論文の概要: SWIRL: A Staged Workflow for Interleaved Reinforcement Learning in Mobile GUI Control
- arxiv url: http://arxiv.org/abs/2508.20018v1
- Date: Wed, 27 Aug 2025 16:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.699694
- Title: SWIRL: A Staged Workflow for Interleaved Reinforcement Learning in Mobile GUI Control
- Title(参考訳): SWIRL:モバイルGUI制御におけるインターリーブ強化学習のための段階的ワークフロー
- Authors: Quanfeng Lu, Zhantao Ma, Shuai Zhong, Jin Wang, Dahai Yu, Michael K. Ng, Ping Luo,
- Abstract要約: マルチエージェントシステム用に設計されたインターリーブ強化学習のための段階的ワークフローであるSWIRLを紹介する。
SWIRLは、MARLを一連の単エージェント強化学習タスクに再構成し、一方のエージェントを一度に更新し、他方のエージェントを固定する。
モバイルGUI制御への応用において、SWIRLは言語とスクリーンコンテキストを構造化されたプランに変換するナビゲータと、これらのプランを実行可能なアトミックアクションに変換するインターアクターをインスタンス化する。
- 参考スコア(独自算出の注目度): 38.81034547191083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large vision language models (LVLMs) and agent systems has heightened interest in mobile GUI agents that can reliably translate natural language into interface operations. Existing single-agent approaches, however, remain limited by structural constraints. Although multi-agent systems naturally decouple different competencies, recent progress in multi-agent reinforcement learning (MARL) has often been hindered by inefficiency and remains incompatible with current LVLM architectures. To address these challenges, we introduce SWIRL, a staged workflow for interleaved reinforcement learning designed for multi-agent systems. SWIRL reformulates MARL into a sequence of single-agent reinforcement learning tasks, updating one agent at a time while keeping the others fixed. This formulation enables stable training and promotes efficient coordination across agents. Theoretically, we provide a stepwise safety bound, a cross-round monotonic improvement theorem, and convergence guarantees on return, ensuring robust and principled optimization. In application to mobile GUI control, SWIRL instantiates a Navigator that converts language and screen context into structured plans, and an Interactor that grounds these plans into executable atomic actions. Extensive experiments demonstrate superior performance on both high-level and low-level GUI benchmarks. Beyond GUI tasks, SWIRL also demonstrates strong capability in multi-agent mathematical reasoning, underscoring its potential as a general framework for developing efficient and robust multi-agent systems.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)とエージェントシステムの急速な進歩により、自然言語をインターフェース操作に確実に翻訳できるモバイルGUIエージェントへの関心が高まっている。
しかし、既存の単一エージェントアプローチは、構造的制約によって制限される。
マルチエージェントシステムは自然に異なる能力を持つが、近年のマルチエージェント強化学習(MARL)の進歩は非効率性によって妨げられ、現在のLVLMアーキテクチャとは相容れない。
これらの課題に対処するために、マルチエージェントシステム用に設計されたインターリーブ強化学習のための段階的ワークフローであるSWIRLを紹介する。
SWIRLは、MARLを一連の単エージェント強化学習タスクに再構成し、一方のエージェントを一度に更新し、他方のエージェントを固定する。
この定式化は安定した訓練を可能にし、エージェント間の効率的な調整を促進する。
理論的には、ステップワイズな安全性境界、クロスラウンドな単調改善定理、リターンの収束保証、堅牢で原則化された最適化を提供する。
モバイルGUI制御への応用において、SWIRLは言語とスクリーンコンテキストを構造化されたプランに変換するナビゲータと、これらのプランを実行可能なアトミックアクションに変換するインターアクターをインスタンス化する。
大規模な実験は、ハイレベルなGUIベンチマークと低レベルなGUIベンチマークの両方で優れたパフォーマンスを示している。
GUIタスク以外にも、SWIRLはマルチエージェントの数学的推論において強力な能力を示し、効率的で堅牢なマルチエージェントシステムを開発するための一般的なフレームワークとしての可能性を示している。
関連論文リスト
- Aime: Towards Fully-Autonomous Multi-Agent Framework [13.494469496862534]
大規模言語モデル(LLM)を利用したマルチエージェントシステム(MAS)は、複雑で多面的な問題を解決するための強力なパラダイムとして浮上している。
これらのシステムのポテンシャルは、しばしば、臨界的な制限に悩まされる一般的なプラン・アンド・エグゼクティブ・フレームワークによって制約される。
本稿では、動的でリアクティブな計画と実行を通じてこれらの課題を克服するために設計された、新しいマルチエージェントフレームワークであるAimeを紹介する。
論文 参考訳(メタデータ) (2025-07-16T07:38:28Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - AppAgentX: Evolving GUI Agents as Proficient Smartphone Users [34.70342284525283]
本稿では,インテリジェンスと柔軟性を維持しつつ,操作効率を向上させるGUIエージェントの進化的フレームワークを提案する。
本手法は,エージェントのタスク実行履歴を記録するメモリ機構を組み込んだものである。
複数のベンチマークタスクに対する実験結果から,本手法は既存の手法よりも効率と精度が優れていることが示された。
論文 参考訳(メタデータ) (2025-03-04T04:34:09Z) - Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
デモからブートストラップされたスキルライブラリは、プラナー誘導タスクを通じて進化し、適応戦略を実現する。
我々は、その最先端のMARLベースラインに対して、対称シナリオと非対称シナリオの両方で強力な性能を示す。
論文 参考訳(メタデータ) (2025-02-14T13:23:18Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [62.854649499866774]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。