論文の概要: ScreenExplorer: Training a Vision-Language Model for Diverse Exploration in Open GUI World
- arxiv url: http://arxiv.org/abs/2505.19095v1
- Date: Sun, 25 May 2025 11:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.900791
- Title: ScreenExplorer: Training a Vision-Language Model for Diverse Exploration in Open GUI World
- Title(参考訳): ScreenExplorer:オープンGUIワールドにおける多言語探索のためのビジョンランゲージモデルのトレーニング
- Authors: Runliang Niu, Jinglong Ji, Yi Chang, Qi Wang,
- Abstract要約: 視覚言語モデル(VLM)に基づく既存のGUIエージェントは、しばしば新しい環境への一般化に失敗する。
ScreenExplorerは、グループ相対ポリシー最適化(GRPO)を介して訓練された、リアルタイム、動的、そしてオープンなGUI環境でのVLMである。
また,世界モデルに基づく好奇心報酬関数を導入し,エージェントが探索のコールドスタートフェーズを克服する手助けをする。
- 参考スコア(独自算出の注目度): 11.401732438387704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of large language models (LLMs) has sparked growing interest in building Artificial General Intelligence (AGI) within Graphical User Interface (GUI) environments. However, existing GUI agents based on LLMs or vision-language models (VLMs) often fail to generalize to novel environments and rely heavily on manually curated, diverse datasets. To overcome these limitations, we introduce ScreenExplorer, a VLM trained via Group Relative Policy Optimization(GRPO) in real, dynamic, and open-ended GUI environments. Innovatively, we introduced a world-model-based curiosity reward function to help the agent overcome the cold-start phase of exploration. Additionally, distilling experience streams further enhances the model's exploration capabilities. Our training framework enhances model exploration in open GUI environments, with trained models showing better environmental adaptation and sustained exploration compared to static deployment models. Our findings offer a scalable pathway toward AGI systems with self-improving capabilities in complex interactive settings.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、グラフィカルユーザインタフェース(GUI)環境における人工知能(AGI)構築への関心が高まっている。
しかしながら、LLMやビジョン言語モデル(VLM)に基づく既存のGUIエージェントは、しばしば新しい環境への一般化に失敗し、手動でキュレートされた多様なデータセットに大きく依存する。
このような制限を克服するために、ScreenExplorerというグループ相対ポリシー最適化(GRPO)を通じて訓練されたVLMを、リアルタイム、動的、そしてオープンなGUI環境で導入する。
革新的に,探索の冷間開始フェーズを克服するために,世界モデルに基づく好奇心報酬関数を導入した。
さらに、蒸留経験の流れはモデルの探索能力をさらに強化する。
トレーニングフレームワークはオープンGUI環境におけるモデル探索を強化し,静的配置モデルと比較して環境適応性や持続的な探索性を示す。
我々の研究結果は、複雑な対話環境において自己改善機能を備えたAGIシステムへのスケーラブルな経路を提供する。
関連論文リスト
- ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - A Survey on GUI Agents with Foundation Models Enhanced by Reinforcement Learning [13.091740188171915]
まず、GUIエージェントタスクをマルコフ決定プロセスとして定式化し、典型的な実行環境と評価指標について議論する。
次に、(M)LLMベースのGUIエージェントのモジュールアーキテクチャをレビューし、パーセプション、プランニング、アクティベーションモジュールをカバーし、それらの進化を代表的作業を通して追跡する。
本稿では, 複合現実環境におけるGUIエージェントの一般化とロバスト性について, マルチモーダル認識, 決定推論, 適応行動生成における最近の革新が, どのようにして大幅に向上したかを述べる。
論文 参考訳(メタデータ) (2025-04-29T06:55:15Z) - Exploration-Driven Generative Interactive Environments [53.05314852577144]
我々は、低コストで自動収集されたインタラクションデータに多くの仮想環境を使用することに重点を置いている。
仮想環境におけるランダムエージェントのみを用いたトレーニングフレームワークを提案する。
我々のエージェントは環境固有の報酬に完全に依存しているため、新しい環境に容易に適応できる。
論文 参考訳(メタデータ) (2025-04-03T12:01:41Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Large Language Model-Brained GUI Agents: A Survey [42.82362907348966]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。
彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。
これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文 参考訳(メタデータ) (2024-11-27T12:13:39Z) - OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。
現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文 参考訳(メタデータ) (2024-10-30T17:10:19Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。