論文の概要: Co-EPG: A Framework for Co-Evolution of Planning and Grounding in Autonomous GUI Agents
- arxiv url: http://arxiv.org/abs/2511.10705v1
- Date: Thu, 13 Nov 2025 03:41:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.286782
- Title: Co-EPG: A Framework for Co-Evolution of Planning and Grounding in Autonomous GUI Agents
- Title(参考訳): Co-EPG: 自律型GUIエージェントにおける計画と接地の共同進化のためのフレームワーク
- Authors: Yuan Zhao, Hualei Zhu, Tingyu Jiang, Shen Li, Xiaohang Xu, Hao Henry Wang,
- Abstract要約: Co-EPGは、プランニングとグラウンドの共進化のためのセルフイテレーティブなトレーニングフレームワークである。
この研究は、GUIエージェントの新たなトレーニングパラダイムを確立し、分離された最適化から、統合された自己駆動の共進化アプローチに移行する。
- 参考スコア(独自算出の注目度): 10.528687017443852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) task automation constitutes a critical frontier in artificial intelligence research. While effective GUI agents synergistically integrate planning and grounding capabilities, current methodologies exhibit two fundamental limitations: (1) insufficient exploitation of cross-model synergies, and (2) over-reliance on synthetic data generation without sufficient utilization. To address these challenges, we propose Co-EPG, a self-iterative training framework for Co-Evolution of Planning and Grounding. Co-EPG establishes an iterative positive feedback loop: through this loop, the planning model explores superior strategies under grounding-based reward guidance via Group Relative Policy Optimization (GRPO), generating diverse data to optimize the grounding model. Concurrently, the optimized Grounding model provides more effective rewards for subsequent GRPO training of the planning model, fostering continuous improvement. Co-EPG thus enables iterative enhancement of agent capabilities through self-play optimization and training data distillation. On the Multimodal-Mind2Web and AndroidControl benchmarks, our framework outperforms existing state-of-the-art methods after just three iterations without requiring external data. The agent consistently improves with each iteration, demonstrating robust self-enhancement capabilities. This work establishes a novel training paradigm for GUI agents, shifting from isolated optimization to an integrated, self-driven co-evolution approach.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)タスク自動化は、人工知能研究における重要なフロンティアである。
効果的なGUIエージェントは計画と接地機能を相乗的に統合するが、現在の手法は、(1)クロスモデルシナジーの不十分な活用、(2)十分な利用を伴わない合成データ生成への過度な依存の2つの基本的な限界を示す。
このような課題に対処するため,我々は,計画とグラウンドの共進化のための自己着手型トレーニングフレームワークであるCo-EPGを提案する。
このループを通じて、計画モデルは、グループ相対政策最適化(GRPO)を通じて、グラウンドベース報酬ガイダンスの下で優れた戦略を探求し、グラウンドモデルを最適化するために多様なデータを生成する。
同時に、最適化されたグラウンディングモデルは、計画モデルのその後のGRPOトレーニングに対してより効果的な報酬を提供し、継続的な改善を促進する。
したがって、Co-EPGは、セルフプレイ最適化とデータ蒸留の訓練を通じて、エージェント機能の反復的な強化を可能にする。
Multimodal-Mind2WebとAndroidControlベンチマークでは、外部データを必要とせずに、たった3回のイテレーションで既存の最先端メソッドよりも優れたパフォーマンスを実現しています。
エージェントは各イテレーションで継続的に改善し、堅牢な自己改善能力を示す。
この研究は、GUIエージェントの新たなトレーニングパラダイムを確立し、分離された最適化から、統合された自己駆動の共進化アプローチに移行する。
関連論文リスト
- GPR: Towards a Generative Pre-trained One-Model Paradigm for Large-Scale Advertising Recommendation [38.48999566011862]
GPR(Generative Pre-trained Recommender)は,広告推薦をエンドツーエンド生成タスクとして再定義するワンモデルフレームワークである。
統一表現、ネットワークアーキテクチャ、トレーニング戦略にまたがる3つの重要なイノベーションを紹介します。
GPRはTencent Weixin Channelsの広告システムに完全にデプロイされており、主要なビジネスメトリクスを大幅に改善している。
論文 参考訳(メタデータ) (2025-11-13T09:50:53Z) - EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence [17.644658293987955]
身体的AIエージェントは、物理的環境における堅牢な空間認識、効果的なタスク計画、適応実行を行うことができる。
現在の大規模言語モデル (LLMs) とマルチモーダルLLM (MLLMs) の具体化タスクは、重要な制約に悩まされている。
EmbodiedBrain は 7B と 32B のパラメータサイズで利用できる新しい視覚言語基盤モデルである。
論文 参考訳(メタデータ) (2025-10-23T14:05:55Z) - Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search [24.02739832976663]
自動入札は、広告主がパフォーマンスを改善するための重要なツールである。
近年の進歩により、AIGB(AI-Generated Bidding)は、通常のオフライン強化学習(RL)ベースの自動入札法と比較して優れた性能を発揮することが示されている。
生成計画とポリシー最適化を統合した新しい手法であるAIGB-Pearlを提案する。
論文 参考訳(メタデータ) (2025-09-19T12:30:26Z) - Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - Killing Two Birds with One Stone: Unifying Retrieval and Ranking with a Single Generative Recommendation Model [71.45491434257106]
Unified Generative Recommendation Framework (UniGRF)は、検索とランキングを単一の生成モデルに統合する新しいアプローチである。
ステージ間コラボレーションを強化するため、UniGRFはランキング駆動エンハンサーモジュールを導入した。
UniGRFは、ベンチマークデータセット上で既存のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-04-23T06:43:54Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。