論文の概要: Generative Visual Code Mobile World Models
- arxiv url: http://arxiv.org/abs/2602.01576v1
- Date: Mon, 02 Feb 2026 03:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.863568
- Title: Generative Visual Code Mobile World Models
- Title(参考訳): 生成可能なVisual Code Mobile Worldモデル
- Authors: Woosung Koh, Sungjun Han, Segyu Lee, Se-Young Yun, Jamin Shin,
- Abstract要約: Mobile Graphical User Interface (GUI) World Models (WMs) は、列車や推論時にモバイルGUIエージェントのパフォーマンスを改善するための有望な道を提供する。
本稿では,1つのビジョンランゲージモデル(VLM)が次のGUI状態を実行可能なWebコードとして予測する,レンダリング可能なコード生成によるビジュアルワールドモデリングを提案する。
我々は,このパラダイム上に構築された最初のオープンウェイトなビジュアルモバイルGUI WMであるgWorldと,コードベースのトレーニングデータを自動生成するデータ生成フレームワーク(gWorld)を紹介する。
- 参考スコア(独自算出の注目度): 33.86938466546132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile Graphical User Interface (GUI) World Models (WMs) offer a promising path for improving mobile GUI agent performance at train- and inference-time. However, current approaches face a critical trade-off: text-based WMs sacrifice visual fidelity, while the inability of visual WMs in precise text rendering led to their reliance on slow, complex pipelines dependent on numerous external models. We propose a novel paradigm: visual world modeling via renderable code generation, where a single Vision-Language Model (VLM) predicts the next GUI state as executable web code that renders to pixels, rather than generating pixels directly. This combines the strengths of both approaches: VLMs retain their linguistic priors for precise text rendering while their pre-training on structured web code enables high-fidelity visual generation. We introduce gWorld (8B, 32B), the first open-weight visual mobile GUI WMs built on this paradigm, along with a data generation framework (gWorld) that automatically synthesizes code-based training data. In extensive evaluation across 4 in- and 2 out-of-distribution benchmarks, gWorld sets a new pareto frontier in accuracy versus model size, outperforming 8 frontier open-weight models over 50.25x larger. Further analyses show that (1) scaling training data via gWorld yields meaningful gains, (2) each component of our pipeline improves data quality, and (3) stronger world modeling improves downstream mobile GUI policy performance.
- Abstract(参考訳): Mobile Graphical User Interface (GUI) World Models (WMs) は、列車や推論時にモバイルGUIエージェントのパフォーマンスを改善するための有望な道を提供する。
テキストベースのWMは視覚的な忠実さを犠牲にする一方、正確なテキストレンダリングでは視覚的なWMができないため、多くの外部モデルに依存する遅い複雑なパイプラインに依存している。
レンダリング可能なコード生成によるビジュアルワールドモデリングでは、単一のビジョンランゲージモデル(VLM)が、ピクセルを直接生成するのではなく、ピクセルにレンダリングする実行可能なWebコードとして次のGUI状態を予測します。
VLMは、構造化されたWebコードで事前学習することで、高忠実度なビジュアル生成を可能にする。
我々は,このパラダイム上に構築された最初のオープンウェイトなビジュアルモバイルGUI WMであるgWorld (8B, 32B) と,コードベースのトレーニングデータを自動生成するデータ生成フレームワーク (gWorld) を紹介する。
4つのin-of-distriionベンチマークと2つのout-of-distriionベンチマークの広範な評価において、gWorldは50.25倍以上の8つのフロンティアオープンウェイトモデルを上回る精度で新しいパレートフロンティアを設定する。
さらに分析した結果,(1)gWorldによるトレーニングデータのスケールアップが有意義な利益をもたらし,(2)パイプラインの各コンポーネントがデータ品質を向上し,(3)より強力な世界モデリングが,下流のモバイルGUIポリシーのパフォーマンスを向上させることがわかった。
関連論文リスト
- MobileWorldBench: Towards Semantic World Modeling For Mobile Agents [43.504202016224234]
モバイルGUIエージェントのワールドモデルとして機能する視覚言語モデルの能力を評価するベンチマークであるMobileWorldBenchを紹介する。
1.4万のサンプルからなる大規模なデータセットであるMobileWorldをリリースし、VLMの世界モデリング能力を大幅に改善した。
本稿では,VLMワールドモデルをモバイルエージェントの計画フレームワークに統合し,タスク成功率を向上させることで,セマンティックワールドモデルがモバイルエージェントに直接利益をもたらすことを示す。
論文 参考訳(メタデータ) (2025-12-16T02:16:42Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - Mobile-Agent-v3: Fundamental Agents for GUI Automation [59.775510710011325]
本稿では,オープンソースエンド・ツー・エンド・モデル間の最先端性能を実現する基礎的なGUIエージェントモデルを提案する。
汎用GUIエージェントフレームワークであるMobile-Agent-v3を提案し,AndroidWorldでは73.3,OSWorldでは37.7に向上した。
論文 参考訳(メタデータ) (2025-08-21T00:39:12Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。
本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。
提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文 参考訳(メタデータ) (2024-10-25T10:46:17Z) - Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents [20.08996257335876]
環境を視覚的に完全に認識し,GUI上でピクセルレベルの操作を直接実行する,GUIエージェントのためのヒューマンライクなエボディメントを提唱する。
これまでに10MのGUI要素と参照式を1.3Mのスクリーンショット上に収めた、GUIの視覚的接地のための最大のデータセットを収集しました。
ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2024-10-07T17:47:50Z) - Lightweight Vision Transformer with Bidirectional Interaction [59.39874544410419]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。