論文の概要: How Mobile World Model Guides GUI Agents?
- arxiv url: http://arxiv.org/abs/2605.10347v1
- Date: Mon, 11 May 2026 10:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.744035
- Title: How Mobile World Model Guides GUI Agents?
- Title(参考訳): モバイルワールドモデルはGUIエージェントをどのようにガイドするか?
- Authors: Weikai Xu, Kun Huang, Yunren Feng, Jiaxing Li, Yuhan Chen, Yuxuan Liu, Zhizheng Jiang, Heng Qu, Pengzhi Gao, Wei Liu, Jian Luan, Xiaolin Hu, Bo An,
- Abstract要約: デルタテキスト、フルテキスト、拡散ベースのイメージ、レンダリング可能なコードという、4つのモードでワールドモデルをトレーニングします。
これらのモデルはMobileWorldBenchとCode2WorldBenchの両方でSoTAのパフォーマンスを達成する。
低アクションエントロピーを持つ過信な移動体エージェントの場合、後部自己反射は限られた利得を与える。
- 参考スコア(独自算出の注目度): 51.29718003718467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models have enabled mobile GUI agents to perceive visual interfaces and execute user instructions, but reliable prediction of action consequences remains critical for long-horizon and high-risk interactions. Existing mobile world models provide either text-based or image-based future states, yet it remains unclear which representation is useful, whether generated rollouts can replace real environments, and how test-time guidance helps agents of different strengths. To answer the above questions, we filter and annotate mobile world-model data, then train world models across four modalities: delta text, full text, diffusion-based images, and renderable code. These models achieve SoTA performance on both MobileWorldBench and Code2WorldBench. Furthermore, by evaluating their downstream utility on AITZ, AndroidControl, and AndroidWorld, we obtain three findings. First, renderable code reconstruction achieves high in-distribution fidelity and provides effective multimodal supervision for data construction, while text-based feedback is more robust for online out-of-distribution (OOD) execution. Second, world-model-generated trajectories can provide transferable interaction experience in the training process and improve agents' end-to-end task performance, although these data do not preserve the original distribution. Last, for overconfident mobile agents with low action entropy, posterior self-reflection provides limited gains, suggesting that world models are more effective as prior perception or training supervision than as universal post-hoc verifiers.
- Abstract(参考訳): 近年の視覚言語モデルの進歩により、移動体GUIエージェントは視覚的インタフェースを知覚し、ユーザ指示を実行することができるようになったが、長い水平と高リスクの相互作用において、アクション結果の信頼できる予測は依然として不可欠である。
既存のモバイルワールドモデルは、テキストベースまたはイメージベースの将来の状態を提供するが、どの表現が有用か、生成されたロールアウトが実際の環境を置き換えるか、テストタイムガイダンスが異なる強みを持つエージェントにどのように役立つかは、まだ不明である。
上記の質問に答えるために、モバイルワールドモデルデータのフィルタリングと注釈付けを行い、デルタテキスト、フルテキスト、拡散ベースの画像、レンダリング可能なコードという4つのモードでワールドモデルをトレーニングする。
これらのモデルはMobileWorldBenchとCode2WorldBenchの両方でSoTAのパフォーマンスを達成する。
さらに, AITZ, AndroidControl, AndroidWorldのダウンストリームユーティリティを評価することで, 3つの知見を得た。
まず、レンダリング可能なコード再構成は、高分散性を実現し、データ構築に効果的なマルチモーダル監視を提供する一方、テキストベースのフィードバックは、オンライン配布外(OOD)実行においてより堅牢である。
第2に、ワールドモデル生成トラジェクトリは、トレーニングプロセスにおいて転送可能なインタラクションエクスペリエンスを提供し、エージェントのエンドツーエンドタスクのパフォーマンスを改善することができる。
最後に、アクションエントロピーが低い過信な移動エージェントに対しては、後部自己回帰は限られた利得を提供し、世界モデルは、普遍的なポストホック検証よりも、事前認識やトレーニングの監督よりも効果的であることを示唆している。
関連論文リスト
- VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model [87.75549463328836]
本研究の目的は、反復的なオンラインインタラクションにより、視覚言語アクション(VLA)モデルの性能と信頼性を向上させることである。
本稿では,実世界のロールアウトデータを用いて,世界モデルの忠実度を向上する簡易な反復改善アルゴリズムを提案する。
基本方針よりも39.2%の絶対成功率向上と、生成した合成ロールアウトによるトレーニングによる11.6%の改善を実現している。
論文 参考訳(メタデータ) (2026-02-12T15:21:47Z) - Generative Visual Code Mobile World Models [33.86938466546132]
Mobile Graphical User Interface (GUI) World Models (WMs) は、列車や推論時にモバイルGUIエージェントのパフォーマンスを改善するための有望な道を提供する。
本稿では,1つのビジョンランゲージモデル(VLM)が次のGUI状態を実行可能なWebコードとして予測する,レンダリング可能なコード生成によるビジュアルワールドモデリングを提案する。
我々は,このパラダイム上に構築された最初のオープンウェイトなビジュアルモバイルGUI WMであるgWorldと,コードベースのトレーニングデータを自動生成するデータ生成フレームワーク(gWorld)を紹介する。
論文 参考訳(メタデータ) (2026-02-02T03:12:16Z) - MobileDreamer: Generative Sketch World Model for GUI Agent [17.169413605980015]
モバイルGUIエージェントは、現実世界の自動化と実用的な応用において大きな可能性を示している。
MobileDreamerは、将来の想像力に基づいてGUIエージェントを装備するための効率的なワールドモデルベースのルックフレームワークである。
テキストスケッチワールドモデルとGUIエージェントのロールアウトイマジネーションで構成されている。
論文 参考訳(メタデータ) (2026-01-07T15:51:44Z) - Agent2World: Learning to Generate Symbolic World Models via Adaptive Multi-Agent Feedback [51.22403664895878]
Agent2Worldは、強力な推論時ワールドモデル生成を実現するツール拡張マルチエージェントフレームワークである。
また、マルチエージェントフィードバックの生成を基盤にすることで、教師付き微調整のためのデータエンジンとしても機能する。
論文 参考訳(メタデータ) (2025-12-26T18:54:14Z) - From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.47317196099907]
エージェント強化学習は、経験駆動のスケーリングにますます依存している。
世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。
大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
論文 参考訳(メタデータ) (2025-12-21T17:28:42Z) - MobileWorldBench: Towards Semantic World Modeling For Mobile Agents [43.504202016224234]
モバイルGUIエージェントのワールドモデルとして機能する視覚言語モデルの能力を評価するベンチマークであるMobileWorldBenchを紹介する。
1.4万のサンプルからなる大規模なデータセットであるMobileWorldをリリースし、VLMの世界モデリング能力を大幅に改善した。
本稿では,VLMワールドモデルをモバイルエージェントの計画フレームワークに統合し,タスク成功率を向上させることで,セマンティックワールドモデルがモバイルエージェントに直接利益をもたらすことを示す。
論文 参考訳(メタデータ) (2025-12-16T02:16:42Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。