論文の概要: UI2Code$^\text{N}$: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation
- arxiv url: http://arxiv.org/abs/2511.08195v1
- Date: Wed, 12 Nov 2025 01:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.688061
- Title: UI2Code$^\text{N}$: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation
- Title(参考訳): UI2Code$^\text{N}$: テスト時のスケーラブルなインタラクティブUI-to-Code生成のためのビジュアル言語モデル
- Authors: Zhen Yang, Wenyi Hong, Mingde Xu, Xinyue Fan, Weihan Wang, Jiele Cheng, Xiaotao Gu, Jie Tang,
- Abstract要約: UI2Code$textN$は、事前トレーニング、微調整、強化学習を通じて訓練されたビジュアル言語モデルである。
このモデルは、UI-to-code生成、UI編集、UI研磨という3つの重要な機能を統合する。
UI-to-codeとUIの洗練ベンチマークの実験は、UI2Code$textN$が、オープンソースモデルの間で新しい最先端技術を確立していることを示している。
- 参考スコア(独自算出の注目度): 29.248471527003915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User interface (UI) programming is a core yet highly complex part of modern software development. Recent advances in visual language models (VLMs) highlight the potential of automatic UI coding, but current approaches face two key limitations: multimodal coding capabilities remain underdeveloped, and single-turn paradigms make little use of iterative visual feedback. We address these challenges with an interactive UI-to-code paradigm that better reflects real-world workflows and raises the upper bound of achievable performance. Under this paradigm, we present UI2Code$^\text{N}$, a visual language model trained through staged pretraining, fine-tuning, and reinforcement learning to achieve foundational improvements in multimodal coding. The model unifies three key capabilities: UI-to-code generation, UI editing, and UI polishing. We further explore test-time scaling for interactive generation, enabling systematic use of multi-turn feedback. Experiments on UI-to-code and UI polishing benchmarks show that UI2Code$^\text{N}$ establishes a new state of the art among open-source models and achieves performance comparable to leading closed-source models such as Claude-4-Sonnet and GPT-5. Our code and models are available at https://github.com/zai-org/UI2Code_N.
- Abstract(参考訳): ユーザインターフェース(UI)プログラミングは、現代のソフトウェア開発の中核であるが非常に複雑な部分である。
ビジュアル言語モデル(VLM)の最近の進歩は、自動UIコーディングの可能性を強調しているが、現在のアプローチでは2つの重要な制限に直面している。
実際のワークフローをよりよく反映し、達成可能なパフォーマンスの上限を高くする、インタラクティブなUI-to-codeパラダイムによって、これらの課題に対処します。
このパラダイムの下では、UI2Code$^\text{N}$は、段階的事前学習、微調整、強化学習を通じて訓練された視覚言語モデルであり、マルチモーダルコーディングの基本的な改善を実現する。
このモデルは、UI-to-code生成、UI編集、UI研磨という3つの重要な機能を統合する。
さらに、インタラクティブな生成のためのテスト時間スケーリングについて検討し、マルチターンフィードバックの体系的な利用を可能にした。
UI-to-codeとUIの洗練ベンチマークの実験によると、UI2Code$^\text{N}$は、オープンソースモデルの間で新しい最先端技術を確立し、Claude-4-SonnetやGPT-5といった主要なクローズドソースモデルに匹敵するパフォーマンスを達成する。
私たちのコードとモデルはhttps://github.com/zai-org/UI2Code_N.orgで公開されています。
関連論文リスト
- WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation [30.193562985137813]
インタラクティブなUI-to-Code生成とバリデーションのための最初のエージェントフレームワークであるWebVIAを提案する。
フレームワークには,1)マルチステートUIスクリーンショットをキャプチャする探索エージェント,2)実行可能なインタラクティブコードを生成するUI2Codeモデル,3)対話性を検証する検証モジュールの3つのコンポーネントが含まれている。
論文 参考訳(メタデータ) (2025-11-09T06:58:52Z) - ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents [40.697759330690815]
ScreenCoderはモジュール型のマルチエージェントフレームワークで、タスクを3つの解釈可能なステージ(グラウンド、プランニング、生成)に分解する。
特殊エージェントにこれらの異なる責任を割り当てることで、我々のフレームワークはエンド・ツー・エンドのアプローチよりもはるかに高い堅牢性と忠実性を達成する。
提案手法は, レイアウト精度, 構造コヒーレンス, コード正確性において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T16:41:21Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Reinforced UI Instruction Grounding: Towards a Generic UI Task
Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。
画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。
提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文 参考訳(メタデータ) (2023-10-07T07:22:41Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。