論文の概要: MobileDreamer: Generative Sketch World Model for GUI Agent
- arxiv url: http://arxiv.org/abs/2601.04035v1
- Date: Wed, 07 Jan 2026 15:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.674406
- Title: MobileDreamer: Generative Sketch World Model for GUI Agent
- Title(参考訳): MobileDreamer: GUIエージェントのための生成的スケッチワールドモデル
- Authors: Yilin Cao, Yufeng Zhong, Zhixiong Zeng, Liming Zheng, Jing Huang, Haibo Qiu, Peng Shi, Wenji Mao, Wan Guanglu,
- Abstract要約: モバイルGUIエージェントは、現実世界の自動化と実用的な応用において大きな可能性を示している。
MobileDreamerは、将来の想像力に基づいてGUIエージェントを装備するための効率的なワールドモデルベースのルックフレームワークである。
テキストスケッチワールドモデルとGUIエージェントのロールアウトイマジネーションで構成されている。
- 参考スコア(独自算出の注目度): 17.169413605980015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile GUI agents have shown strong potential in real-world automation and practical applications. However, most existing agents remain reactive, making decisions mainly from current screen, which limits their performance on long-horizon tasks. Building a world model from repeated interactions enables forecasting action outcomes and supports better decision making for mobile GUI agents. This is challenging because the model must predict post-action states with spatial awareness while remaining efficient enough for practical deployment. In this paper, we propose MobileDreamer, an efficient world-model-based lookahead framework to equip the GUI agents based on the future imagination provided by the world model. It consists of textual sketch world model and rollout imagination for GUI agent. Textual sketch world model forecasts post-action states through a learning process to transform digital images into key task-related sketches, and designs a novel order-invariant learning strategy to preserve the spatial information of GUI elements. The rollout imagination strategy for GUI agent optimizes the action-selection process by leveraging the prediction capability of world model. Experiments on Android World show that MobileDreamer achieves state-of-the-art performance and improves task success by 5.25%. World model evaluations further verify that our textual sketch modeling accurately forecasts key GUI elements.
- Abstract(参考訳): モバイルGUIエージェントは、現実世界の自動化と実用的な応用において大きな可能性を示している。
しかし、既存のエージェントのほとんどはリアクティブであり、主に現在の画面から決定を下し、長期タスクのパフォーマンスを制限している。
繰り返し対話から世界モデルを構築することで、アクション結果の予測が可能になり、モバイルGUIエージェントのより良い意思決定をサポートする。
これは、実際の展開に十分な効率を保ちながら、空間的認識を伴うポストアクション状態を予測する必要があるためである。
本稿では,世界モデルが提供する未来の想像力に基づいてGUIエージェントを装備する,効率的な世界モデルベースルックアヘッドフレームワークであるMobileDreamerを提案する。
テキストスケッチワールドモデルとGUIエージェントのロールアウトイマジネーションで構成されている。
テキストスケッチワールドモデルは、デジタルイメージを重要なタスク関連スケッチに変換する学習プロセスを通じてポストアクション状態を予測し、GUI要素の空間情報を保存するための新しい順序不変学習戦略を設計する。
GUIエージェントのロールアウト想像戦略は、世界モデルの予測能力を活用することにより、アクション選択プロセスを最適化する。
Android Worldの実験によると、MobileDreamerは最先端のパフォーマンスを達成し、タスクの成功を5.25%改善している。
世界モデル評価では、我々のテキストスケッチモデリングが重要なGUI要素を正確に予測することを確認した。
関連論文リスト
- MobileWorldBench: Towards Semantic World Modeling For Mobile Agents [43.504202016224234]
モバイルGUIエージェントのワールドモデルとして機能する視覚言語モデルの能力を評価するベンチマークであるMobileWorldBenchを紹介する。
1.4万のサンプルからなる大規模なデータセットであるMobileWorldをリリースし、VLMの世界モデリング能力を大幅に改善した。
本稿では,VLMワールドモデルをモバイルエージェントの計画フレームワークに統合し,タスク成功率を向上させることで,セマンティックワールドモデルがモバイルエージェントに直接利益をもたらすことを示す。
論文 参考訳(メタデータ) (2025-12-16T02:16:42Z) - ViMo: A Generative Visual GUI World Model for App Agents [60.27668506731929]
ViMoは、将来のApp観測をイメージとして生成するために設計されたビジュアルワールドモデルである。
本稿では,シンボルプレースホルダーによるテキストコンテンツをオーバーレイする新しいデータ表現であるシンボリックテキスト表現を提案する。
この設計では、将来のGUIのグラフィックスを予測するSTR Predictorと、対応するテキストを生成するGUI-text Predictorが使用されている。
論文 参考訳(メタデータ) (2025-04-15T14:03:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents [20.08996257335876]
環境を視覚的に完全に認識し,GUI上でピクセルレベルの操作を直接実行する,GUIエージェントのためのヒューマンライクなエボディメントを提唱する。
これまでに10MのGUI要素と参照式を1.3Mのスクリーンショット上に収めた、GUIの視覚的接地のための最大のデータセットを収集しました。
ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2024-10-07T17:47:50Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。