論文の概要: MobileWorldBench: Towards Semantic World Modeling For Mobile Agents
- arxiv url: http://arxiv.org/abs/2512.14014v1
- Date: Tue, 16 Dec 2025 02:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.548576
- Title: MobileWorldBench: Towards Semantic World Modeling For Mobile Agents
- Title(参考訳): MobileWorldBench: モバイルエージェントのセマンティックワールドモデリングを目指す
- Authors: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Aditya Grover,
- Abstract要約: モバイルGUIエージェントのワールドモデルとして機能する視覚言語モデルの能力を評価するベンチマークであるMobileWorldBenchを紹介する。
1.4万のサンプルからなる大規模なデータセットであるMobileWorldをリリースし、VLMの世界モデリング能力を大幅に改善した。
本稿では,VLMワールドモデルをモバイルエージェントの計画フレームワークに統合し,タスク成功率を向上させることで,セマンティックワールドモデルがモバイルエージェントに直接利益をもたらすことを示す。
- 参考スコア(独自算出の注目度): 43.504202016224234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models have shown great utility in improving the task performance of embodied agents. While prior work largely focuses on pixel-space world models, these approaches face practical limitations in GUI settings, where predicting complex visual elements in future states is often difficult. In this work, we explore an alternative formulation of world modeling for GUI agents, where state transitions are described in natural language rather than predicting raw pixels. First, we introduce MobileWorldBench, a benchmark that evaluates the ability of vision-language models (VLMs) to function as world models for mobile GUI agents. Second, we release MobileWorld, a large-scale dataset consisting of 1.4M samples, that significantly improves the world modeling capabilities of VLMs. Finally, we propose a novel framework that integrates VLM world models into the planning framework of mobile agents, demonstrating that semantic world models can directly benefit mobile agents by improving task success rates. The code and dataset is available at https://github.com/jacklishufan/MobileWorld
- Abstract(参考訳): 世界モデルは、エンボディエージェントのタスク性能を改善するのに非常に有用である。
以前の研究は主にピクセル空間の世界モデルに焦点が当てられていたが、これらのアプローチはGUI設定において現実的な制限に直面しており、将来の状態における複雑な視覚要素を予測することはしばしば困難である。
そこで本研究では,GUIエージェントに対する世界モデリングの代替として,状態遷移を生のピクセルを予測するのではなく自然言語で記述する手法を提案する。
まず、モバイルGUIエージェントのワールドモデルとして機能する視覚言語モデル(VLM)の能力を評価するベンチマークであるMobileWorldBenchを紹介する。
第2に、1.4万サンプルからなる大規模なデータセットであるMobileWorldをリリースし、VLMの世界モデリング能力を大幅に改善した。
最後に,VLMワールドモデルをモバイルエージェントの計画フレームワークに統合し,タスク成功率を向上させることで,セマンティックワールドモデルがモバイルエージェントに直接利益をもたらすことを示す。
コードとデータセットはhttps://github.com/jacklishufan/MobileWorldで公開されている。
関連論文リスト
- World-in-World: World Models in a Closed-Loop World [123.85805788728128]
我々は,実エージェントと環境の相互作用を反映したクローズドループの世界において,世界モデルをベンチマークする最初のオープンプラットフォームであるWorld-in-Worldを紹介した。
多様なWMを厳格に評価し、タスク成功を主要な指標として優先順位付けし、視覚的品質に重点を置く4つのクローズドループ環境をキュレートする。
1)視覚的品質だけではタスクの成功は保証されないが、制御可能性の方が重要であること、2) 行動観測データによる後トレーニングのスケーリングは、事前訓練されたビデオジェネレータをアップグレードするよりも効果的であること、3) 推論時計算の割り当てにより、WMsは大幅にクローズドな改善が可能であること、の3つのサプライズを明らかにした。
論文 参考訳(メタデータ) (2025-10-20T22:09:15Z) - Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - PoE-World: Compositional World Modeling with Products of Programmatic Experts [50.35012247866856]
世界がどのように機能するかを学ぶことは、複雑な環境に適応できるAIエージェントの構築の中心である。
LLM(Large Language Models)を用いたプログラム合成の最近の進歩は、ソースコードとして表現された世界モデルを学ぶための代替アプローチを提供する。
このアプローチは,数個の観測結果から複雑な世界モデルを学習できることを示し,これらをモデルベース計画エージェントに組み込むことで,AtariのPongとMontezumaのRevengeの未確認レベルに対する効率的な性能と一般化を実証する。
論文 参考訳(メタデータ) (2025-05-16T03:28:42Z) - ViMo: A Generative Visual GUI World Model for App Agents [60.27668506731929]
ViMoは、将来のApp観測をイメージとして生成するために設計されたビジュアルワールドモデルである。
本稿では,シンボルプレースホルダーによるテキストコンテンツをオーバーレイする新しいデータ表現であるシンボリックテキスト表現を提案する。
この設計では、将来のGUIのグラフィックスを予測するSTR Predictorと、対応するテキストを生成するGUI-text Predictorが使用されている。
論文 参考訳(メタデータ) (2025-04-15T14:03:10Z) - TrajLLM: A Modular LLM-Enhanced Agent-Based Framework for Realistic Human Trajectory Simulation [3.8106509573548286]
この作業は、Large Language Models(LLM)を活用して人間のモビリティをシミュレートし、従来のモデルにおける高コストやプライバシの問題に対処する。
我々の階層的枠組みは、実世界の人口統計と心理データを用いて、ペルソナ生成、活動選択、目的地予測を統合している。
論文 参考訳(メタデータ) (2025-02-26T00:13:26Z) - Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。