論文の概要: GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.02423v1
- Date: Tue, 02 Dec 2025 05:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.731789
- Title: GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning
- Title(参考訳): GUI探索ラボ:多段階強化学習によるエージェントの画面ナビゲーション向上
- Authors: Haolong Yan, Yeqing Shen, Xin Huang, Jia Wang, Kaijun Tan, Zhixuan Liang, Hongxin Li, Zheng Ge, Osamu Yoshie, Si Li, Xiangyu Zhang, Daxin Jiang,
- Abstract要約: 実世界のPCソフトウェアとモバイルアプリは複雑でプロプライエタリであるため、エージェントのトレーニングや評価に必要な包括的な環境情報を得るのは難しい。
本稿ではGUIエージェントナビゲーション研究のためのシミュレーション環境エンジンであるGUI Exploration Labを紹介する。
広範囲な実験を通して、教師付き微調整は基礎知識の効果的な記憶を可能とし、その後の訓練において重要な基礎となることが判明した。
静的およびインタラクティブなベンチマークにおいて,本手法の有効性を検証し,実世界のシナリオに効果的に応用できることを実証した。
- 参考スコア(独自算出の注目度): 47.281652821908295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of Large Vision Language Models, the focus of Graphical User Interface (GUI) agent tasks shifts from single-screen tasks to complex screen navigation challenges. However, real-world GUI environments, such as PC software and mobile Apps, are often complex and proprietary, making it difficult to obtain the comprehensive environment information needed for agent training and evaluation. This limitation hinders systematic investigation and benchmarking of agent navigation capabilities. To address this limitation, we introduce GUI Exploration Lab, a simulation environment engine for GUI agent navigation research that enables flexible definition and composition of screens, icons, and navigation graphs, while providing full access to environment information for comprehensive agent training and evaluation. Through extensive experiments, we find that supervised fine-tuning enables effective memorization of fundamental knowledge, serving as a crucial foundation for subsequent training. Building on this, single-turn reinforcement learning further enhances generalization to unseen scenarios. Finally, multi-turn reinforcement learning encourages the development of exploration strategies through interactive trial and error, leading to further improvements in screen navigation performance. We validate our methods on both static and interactive benchmarks, demonstrating that our findings generalize effectively to real-world scenarios. These findings demonstrate the advantages of reinforcement learning approaches in GUI navigation and offer practical guidance for building more capable and generalizable GUI agents.
- Abstract(参考訳): Large Vision Language Modelsの急速な開発に伴い、GUI(Graphical User Interface)エージェントタスクの焦点は、シングルスクリーンタスクから複雑なスクリーンナビゲーション課題へとシフトする。
しかし、PCソフトウェアやモバイルアプリのような現実世界のGUI環境は複雑でプロプライエタリであり、エージェントのトレーニングや評価に必要な包括的な環境情報を得るのは難しい。
この制限は、エージェントナビゲーション機能の体系的な調査とベンチマークを妨げる。
この制限に対処するため、GUIエージェントナビゲーション研究のためのシミュレーション環境エンジンであるGUI Exploration Labを導入し、スクリーン、アイコン、ナビゲーショングラフの柔軟な定義と構成を可能にするとともに、総合的なエージェントトレーニングと評価のための環境情報への完全なアクセスを提供する。
広範囲な実験を通して、教師付き微調整は基礎知識の効果的な記憶を可能にし、その後の訓練において重要な基礎となることが判明した。
これに基づいて、シングルターン強化学習は、目に見えないシナリオへの一般化をさらに強化する。
最後に、マルチターン強化学習により、インタラクティブな試行錯誤による探索戦略の開発が促進され、画面ナビゲーション性能がさらに向上する。
静的およびインタラクティブなベンチマークにおいて,本手法の有効性を検証し,実世界のシナリオに効果的に応用できることを実証した。
これらの知見は、GUIナビゲーションにおける強化学習アプローチの利点を示し、より有能で汎用的なGUIエージェントを構築するための実践的なガイダンスを提供する。
関連論文リスト
- Mano Technical Report [29.551514304095296]
Manoは、大規模なWebおよびコンピュータシステムデータに基づいて事前訓練されたマルチモーダル基盤モデル上に構築された堅牢なGUIエージェントである。
Mano氏は、Mind2WebやOSWorldなど、複数のGUIベンチマークで最先端のパフォーマンスをデモしている。
論文 参考訳(メタデータ) (2025-09-22T03:13:58Z) - MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning [83.81404871748438]
MagicGUIは、現実のモバイルGUI環境における認識、接地、推論における重要な課題に対処するために設計された、基本的なモバイルGUIエージェントである。
フレームワークには、包括的で正確なデータセット、知覚と接地能力の強化、包括的で統一されたアクション空間、計画指向の推論メカニズムを含む6つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2025-07-19T12:33:43Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - A Survey on (M)LLM-Based GUI Agents [62.57899977018417]
グラフィカルユーザインタフェース (GUI) エージェントは、人間とコンピュータのインタラクションにおいて、トランスフォーメーションパラダイムとして登場した。
大規模言語モデルとマルチモーダル学習の最近の進歩は、デスクトップ、モバイル、Webプラットフォーム全体でGUI自動化に革命をもたらした。
本調査では, 正確な要素位置決定, 効果的な知識検索, 長期計画, 安全に配慮した実行制御など, 重要な技術的課題を明らかにする。
論文 参考訳(メタデータ) (2025-03-27T17:58:31Z) - GUI-Xplore: Empowering Generalizable GUI Agents with One Exploration [22.814882629516635]
GUI-Xploreは、クロスアプリケーションとクロスタスクの一般化を強化するために細心の注意を払って設計されたデータセットである。
GUI-Xploreのユニークな機能をフル活用するために,Action-aware GUI ModelingとGraph-Guided Environment Reasoningを組み合わせたGUIエージェントフレームワークであるXplore-Agentを提案する。
論文 参考訳(メタデータ) (2025-03-22T09:30:37Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。