論文の概要: Generative Visual Code Mobile World Models
- arxiv url: http://arxiv.org/abs/2602.01576v1
- Date: Mon, 02 Feb 2026 03:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.863568
- Title: Generative Visual Code Mobile World Models
- Title(参考訳): 生成可能なVisual Code Mobile Worldモデル
- Authors: Woosung Koh, Sungjun Han, Segyu Lee, Se-Young Yun, Jamin Shin,
- Abstract要約: Mobile Graphical User Interface (GUI) World Models (WMs) は、列車や推論時にモバイルGUIエージェントのパフォーマンスを改善するための有望な道を提供する。
本稿では,1つのビジョンランゲージモデル(VLM)が次のGUI状態を実行可能なWebコードとして予測する,レンダリング可能なコード生成によるビジュアルワールドモデリングを提案する。
我々は,このパラダイム上に構築された最初のオープンウェイトなビジュアルモバイルGUI WMであるgWorldと,コードベースのトレーニングデータを自動生成するデータ生成フレームワーク(gWorld)を紹介する。
- 参考スコア(独自算出の注目度): 33.86938466546132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile Graphical User Interface (GUI) World Models (WMs) offer a promising path for improving mobile GUI agent performance at train- and inference-time. However, current approaches face a critical trade-off: text-based WMs sacrifice visual fidelity, while the inability of visual WMs in precise text rendering led to their reliance on slow, complex pipelines dependent on numerous external models. We propose a novel paradigm: visual world modeling via renderable code generation, where a single Vision-Language Model (VLM) predicts the next GUI state as executable web code that renders to pixels, rather than generating pixels directly. This combines the strengths of both approaches: VLMs retain their linguistic priors for precise text rendering while their pre-training on structured web code enables high-fidelity visual generation. We introduce gWorld (8B, 32B), the first open-weight visual mobile GUI WMs built on this paradigm, along with a data generation framework (gWorld) that automatically synthesizes code-based training data. In extensive evaluation across 4 in- and 2 out-of-distribution benchmarks, gWorld sets a new pareto frontier in accuracy versus model size, outperforming 8 frontier open-weight models over 50.25x larger. Further analyses show that (1) scaling training data via gWorld yields meaningful gains, (2) each component of our pipeline improves data quality, and (3) stronger world modeling improves downstream mobile GUI policy performance.
- Abstract(参考訳): Mobile Graphical User Interface (GUI) World Models (WMs) は、列車や推論時にモバイルGUIエージェントのパフォーマンスを改善するための有望な道を提供する。
テキストベースのWMは視覚的な忠実さを犠牲にする一方、正確なテキストレンダリングでは視覚的なWMができないため、多くの外部モデルに依存する遅い複雑なパイプラインに依存している。
レンダリング可能なコード生成によるビジュアルワールドモデリングでは、単一のビジョンランゲージモデル(VLM)が、ピクセルを直接生成するのではなく、ピクセルにレンダリングする実行可能なWebコードとして次のGUI状態を予測します。
VLMは、構造化されたWebコードで事前学習することで、高忠実度なビジュアル生成を可能にする。
我々は,このパラダイム上に構築された最初のオープンウェイトなビジュアルモバイルGUI WMであるgWorld (8B, 32B) と,コードベースのトレーニングデータを自動生成するデータ生成フレームワーク (gWorld) を紹介する。
4つのin-of-distriionベンチマークと2つのout-of-distriionベンチマークの広範な評価において、gWorldは50.25倍以上の8つのフロンティアオープンウェイトモデルを上回る精度で新しいパレートフロンティアを設定する。
さらに分析した結果,(1)gWorldによるトレーニングデータのスケールアップが有意義な利益をもたらし,(2)パイプラインの各コンポーネントがデータ品質を向上し,(3)より強力な世界モデリングが,下流のモバイルGUIポリシーのパフォーマンスを向上させることがわかった。
関連論文リスト
- Code2World: A GUI World Model via Renderable Code Generation [37.96080847935199]
我々は、レンダリング可能なコード生成によって次の視覚状態をシミュレートするビジョンフィードバックコーダであるCode2Worldを提案する。
Code2World-8Bは、競合するGPT-5やGemini-3-Pro-Imageに対抗して、パフォーマンスの高い次のUI予測を実現している。
論文 参考訳(メタデータ) (2026-02-10T14:56:19Z) - MobileWorldBench: Towards Semantic World Modeling For Mobile Agents [43.504202016224234]
モバイルGUIエージェントのワールドモデルとして機能する視覚言語モデルの能力を評価するベンチマークであるMobileWorldBenchを紹介する。
1.4万のサンプルからなる大規模なデータセットであるMobileWorldをリリースし、VLMの世界モデリング能力を大幅に改善した。
本稿では,VLMワールドモデルをモバイルエージェントの計画フレームワークに統合し,タスク成功率を向上させることで,セマンティックワールドモデルがモバイルエージェントに直接利益をもたらすことを示す。
論文 参考訳(メタデータ) (2025-12-16T02:16:42Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - Mobile-Agent-v3: Fundamental Agents for GUI Automation [59.775510710011325]
本稿では,オープンソースエンド・ツー・エンド・モデル間の最先端性能を実現する基礎的なGUIエージェントモデルを提案する。
汎用GUIエージェントフレームワークであるMobile-Agent-v3を提案し,AndroidWorldでは73.3,OSWorldでは37.7に向上した。
論文 参考訳(メタデータ) (2025-08-21T00:39:12Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents [29.65579758217919]
nameは、高レベルな現実世界のタスクシナリオにおけるLVLMの能力を高めるために設計された最初の強化学習フレームワークである。
従来のOS-Atlasのような最先端のメソッドと比較して、データの0.02%しか使っていない。
論文 参考訳(メタデータ) (2025-04-14T17:45:54Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。
現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文 参考訳(メタデータ) (2024-10-30T17:10:19Z) - EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。
本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。
提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文 参考訳(メタデータ) (2024-10-25T10:46:17Z) - Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents [20.08996257335876]
環境を視覚的に完全に認識し,GUI上でピクセルレベルの操作を直接実行する,GUIエージェントのためのヒューマンライクなエボディメントを提唱する。
これまでに10MのGUI要素と参照式を1.3Mのスクリーンショット上に収めた、GUIの視覚的接地のための最大のデータセットを収集しました。
ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2024-10-07T17:47:50Z) - Lightweight Vision Transformer with Bidirectional Interaction [59.39874544410419]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。