論文の概要: Code2World: A GUI World Model via Renderable Code Generation
- arxiv url: http://arxiv.org/abs/2602.09856v1
- Date: Tue, 10 Feb 2026 14:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.620516
- Title: Code2World: A GUI World Model via Renderable Code Generation
- Title(参考訳): Code2World: レンダリング可能なコード生成によるGUIワールドモデル
- Authors: Yuhao Zheng, Li'an Zhong, Yi Wang, Rui Dai, Kaikui Liu, Xiangxiang Chu, Linyuan Lv, Philip Torr, Kevin Qinghong Lin,
- Abstract要約: 我々は、レンダリング可能なコード生成によって次の視覚状態をシミュレートするビジョンフィードバックコーダであるCode2Worldを提案する。
Code2World-8Bは、競合するGPT-5やGemini-3-Pro-Imageに対抗して、パフォーマンスの高い次のUI予測を実現している。
- 参考スコア(独自算出の注目度): 37.96080847935199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous GUI agents interact with environments by perceiving interfaces and executing actions. As a virtual sandbox, the GUI World model empowers agents with human-like foresight by enabling action-conditioned prediction. However, existing text- and pixel-based approaches struggle to simultaneously achieve high visual fidelity and fine-grained structural controllability. To this end, we propose Code2World, a vision-language coder that simulates the next visual state via renderable code generation. Specifically, to address the data scarcity problem, we construct AndroidCode by translating GUI trajectories into high-fidelity HTML and refining synthesized code through a visual-feedback revision mechanism, yielding a corpus of over 80K high-quality screen-action pairs. To adapt existing VLMs into code prediction, we first perform SFT as a cold start for format layout following, then further apply Render-Aware Reinforcement Learning which uses rendered outcome as the reward signal by enforcing visual semantic fidelity and action consistency. Extensive experiments demonstrate that Code2World-8B achieves the top-performing next UI prediction, rivaling the competitive GPT-5 and Gemini-3-Pro-Image. Notably, Code2World significantly enhances downstream navigation success rates in a flexible manner, boosting Gemini-2.5-Flash by +9.5% on AndroidWorld navigation. The code is available at https://github.com/AMAP-ML/Code2World.
- Abstract(参考訳): 自律的なGUIエージェントは、インターフェースを認識し、アクションを実行することで環境と対話する。
仮想サンドボックスとして、GUI Worldモデルは、アクション条件付き予測を有効にすることで、エージェントに人間のような監視力を与える。
しかし、既存のテキストとピクセルベースのアプローチは、高い視覚的忠実度ときめ細かい構造制御性を同時に達成するのに苦労している。
この目的のために,レンダリング可能なコード生成によって次の視覚状態をシミュレートする視覚言語コーダであるCode2Worldを提案する。
具体的には,GUIトラジェクトリを高忠実度HTMLに変換し,視覚フィードバックリビジョン機構を通じて合成コードを精細化し,80K以上の高品質スクリーンアクションペアのコーパスを生成することにより,AndroidCodeを構築する。
既存のVLMをコード予測に適応させるために、まずフォーマットレイアウトのコールドスタートとしてSFTを実行し、さらに視覚的セマンティック忠実さとアクション一貫性を強制することにより、成果を報奨信号として利用するRender-Aware Reinforcement Learningを適用した。
大規模な実験により、Code2World-8Bは、競合するGPT-5やGemini-3-Pro-Imageに対抗して、パフォーマンスの高い次のUI予測を達成している。
特に、Code2Worldは下流でのナビゲーションの成功率を大幅に向上させ、AndroidWorldナビゲーションではGemini-2.5-Flashを+9.5%向上させた。
コードはhttps://github.com/AMAP-ML/Code2Worldで公開されている。
関連論文リスト
- Generative Visual Code Mobile World Models [33.86938466546132]
Mobile Graphical User Interface (GUI) World Models (WMs) は、列車や推論時にモバイルGUIエージェントのパフォーマンスを改善するための有望な道を提供する。
本稿では,1つのビジョンランゲージモデル(VLM)が次のGUI状態を実行可能なWebコードとして予測する,レンダリング可能なコード生成によるビジュアルワールドモデリングを提案する。
我々は,このパラダイム上に構築された最初のオープンウェイトなビジュアルモバイルGUI WMであるgWorldと,コードベースのトレーニングデータを自動生成するデータ生成フレームワーク(gWorld)を紹介する。
論文 参考訳(メタデータ) (2026-02-02T03:12:16Z) - ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands [59.222064425122795]
そこで我々は,GUI dexterous Handとして最初のフローベース生成モデルである ShowUI-$ を開発した。
ShowUI-$$は、たった450万のパラメータで26.98を達成する。
論文 参考訳(メタデータ) (2025-12-31T16:51:14Z) - UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation [29.248471527003915]
UI2Code$textN$は、事前トレーニング、微調整、強化学習を通じて訓練されたビジュアル言語モデルである。
このモデルは、UI-to-code生成、UI編集、UI研磨という3つの重要な機能を統合する。
UI-to-codeとUIの洗練ベンチマークの実験は、UI2Code$textN$が、オープンソースモデルの間で新しい最先端技術を確立していることを示している。
論文 参考訳(メタデータ) (2025-11-11T13:00:09Z) - ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents [40.697759330690815]
ScreenCoderはモジュール型のマルチエージェントフレームワークで、タスクを3つの解釈可能なステージ(グラウンド、プランニング、生成)に分解する。
特殊エージェントにこれらの異なる責任を割り当てることで、我々のフレームワークはエンド・ツー・エンドのアプローチよりもはるかに高い堅牢性と忠実性を達成する。
提案手法は, レイアウト精度, 構造コヒーレンス, コード正確性において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T16:41:21Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。