論文の概要: PG-Agent: An Agent Powered by Page Graph
- arxiv url: http://arxiv.org/abs/2509.03536v1
- Date: Wed, 27 Aug 2025 12:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.907381
- Title: PG-Agent: An Agent Powered by Page Graph
- Title(参考訳): PG-Agent:ページグラフで動くエージェント
- Authors: Weizhi Chen, Ziwei Wang, Leyang Yang, Sheng Zhou, Xiaoxuan Tang, Jiajun Bu, Yong Li, Wei Jiang,
- Abstract要約: 我々は、連続エピソードをページグラフに変換する自動パイプラインを開発し、アクションによって自然に結びついているページのグラフ構造を明示的にモデル化する。
また,GUIの信頼性の高い認識ガイドラインを検索するためにRetrieval-Augmented Generation技術を導入し,タスク分解戦略を取り入れたマルチエージェントフレームワークPG-Agentを提案する。
PG-Agentの有効性は,ページグラフ構築の限られたエピソードであっても,様々なベンチマークで実証された。
- 参考スコア(独自算出の注目度): 26.689158302932142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) agents possess significant commercial and social value, and GUI agents powered by advanced multimodal large language models (MLLMs) have demonstrated remarkable potential. Currently, existing GUI agents usually utilize sequential episodes of multi-step operations across pages as the prior GUI knowledge, which fails to capture the complex transition relationship between pages, making it challenging for the agents to deeply perceive the GUI environment and generalize to new scenarios. Therefore, we design an automated pipeline to transform the sequential episodes into page graphs, which explicitly model the graph structure of the pages that are naturally connected by actions. To fully utilize the page graphs, we further introduce Retrieval-Augmented Generation (RAG) technology to effectively retrieve reliable perception guidelines of GUI from them, and a tailored multi-agent framework PG-Agent with task decomposition strategy is proposed to be injected with the guidelines so that it can generalize to unseen scenarios. Extensive experiments on various benchmarks demonstrate the effectiveness of PG-Agent, even with limited episodes for page graph construction.
- Abstract(参考訳): グラフィカルユーザインタフェース (GUI) エージェントは商業的, 社会的に重要な価値を有し, 高度なマルチモーダル大言語モデル (MLLM) を利用したGUIエージェントは, 顕著な可能性を示している。
現在、既存のGUIエージェントは、通常、ページ間の多重ステップ操作の連続エピソードを、ページ間の複雑な遷移関係を捉えるのに失敗し、エージェントがGUI環境を深く認識し、新しいシナリオに一般化することを困難にしている。
そこで我々は,逐次エピソードをページグラフに変換する自動パイプラインを設計し,アクションによって自然に結びついているページのグラフ構造を明示的にモデル化する。
ページグラフを十分に活用するために、GUIの信頼性の高い認識ガイドラインを効果的に取得するための検索型拡張生成(RAG)技術を導入し、タスク分解戦略に対応した調整型マルチエージェントフレームワークPG-Agentを提案する。
PG-Agentの有効性は、ページグラフ構築の限られたエピソードであっても、様々なベンチマークでの広範囲な実験によって実証されている。
関連論文リスト
- MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - GUI-Robust: A Comprehensive Dataset for Testing GUI Agent Robustness in Real-World Anomalies [34.63675989928621]
本稿ではGUIエージェント評価のための新しいデータセットであるGUI-Robustを紹介する。
また、RPAツールを介して自然なインタラクションからユーザアクションシーケンスを収集する半自動データセット構築パラダイムを提案する。
このパラダイムは、アノテーションの時間コストを19倍以上削減します。
GUI-Robustデータセットを用いて最先端のGUIエージェントを評価し,異常なシナリオにおける性能劣化を明らかにした。
論文 参考訳(メタデータ) (2025-06-17T12:50:35Z) - A Survey on GUI Agents with Foundation Models Enhanced by Reinforcement Learning [13.091740188171915]
まず、GUIエージェントタスクをマルコフ決定プロセスとして定式化し、典型的な実行環境と評価指標について議論する。
次に、(M)LLMベースのGUIエージェントのモジュールアーキテクチャをレビューし、パーセプション、プランニング、アクティベーションモジュールをカバーし、それらの進化を代表的作業を通して追跡する。
本稿では, 複合現実環境におけるGUIエージェントの一般化とロバスト性について, マルチモーダル認識, 決定推論, 適応行動生成における最近の革新が, どのようにして大幅に向上したかを述べる。
論文 参考訳(メタデータ) (2025-04-29T06:55:15Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。