論文の概要: WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation
- arxiv url: http://arxiv.org/abs/2511.06251v1
- Date: Sun, 09 Nov 2025 06:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.839363
- Title: WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation
- Title(参考訳): WebVIA: インタラクティブで検証可能なUI-to-Code生成のためのWebベースの視覚言語エージェントフレームワーク
- Authors: Mingde Xu, Zhen Yang, Wenyi Hong, Lihang Pan, Xinyue Fan, Yan Wang, Xiaotao Gu, Bin Xu, Jie Tang,
- Abstract要約: インタラクティブなUI-to-Code生成とバリデーションのための最初のエージェントフレームワークであるWebVIAを提案する。
フレームワークには,1)マルチステートUIスクリーンショットをキャプチャする探索エージェント,2)実行可能なインタラクティブコードを生成するUI2Codeモデル,3)対話性を検証する検証モジュールの3つのコンポーネントが含まれている。
- 参考スコア(独自算出の注目度): 30.193562985137813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User interface (UI) development requires translating design mockups into functional code, a process that remains repetitive and labor-intensive. While recent Vision-Language Models (VLMs) automate UI-to-Code generation, they generate only static HTML/CSS/JavaScript layouts lacking interactivity. To address this, we propose WebVIA, the first agentic framework for interactive UI-to-Code generation and validation. The framework comprises three components: 1) an exploration agent to capture multi-state UI screenshots; 2) a UI2Code model that generates executable interactive code; 3) a validation module that verifies the interactivity. Experiments demonstrate that WebVIA-Agent achieves more stable and accurate UI exploration than general-purpose agents (e.g., Gemini-2.5-Pro). In addition, our fine-tuned WebVIA-UI2Code models exhibit substantial improvements in generating executable and interactive HTML/CSS/JavaScript code, outperforming their base counterparts across both interactive and static UI2Code benchmarks. Our code and models are available at \href{https://zheny2751-dotcom.github.io/webvia.github.io/}{\texttt{https://webvia.github.io}}.
- Abstract(参考訳): ユーザインターフェース(UI)開発では、繰り返しかつ労働集約的なプロセスである設計モックアップを機能コードに変換する必要があります。
最近のVision-Language Models (VLM)はUI-to-Code生成を自動化するが、対話性に欠ける静的なHTML/CSS/JavaScriptレイアウトのみを生成する。
これを解決するために、インタラクティブなUI-to-Code生成とバリデーションのための最初のエージェントフレームワークであるWebVIAを提案する。
フレームワークは3つのコンポーネントから構成される。
1) マルチステートUIスクリーンショットをキャプチャする探索エージェント
2) 実行可能なインタラクティブコードを生成するUI2Codeモデル。
3) 対話性を検証する検証モジュール。
WebVIA-Agentは汎用エージェント(例:Gemini-2.5-Pro)よりも安定的で正確なUI探索を実現している。
さらに、我々の微調整されたWebVIA-UI2Codeモデルでは、実行可能でインタラクティブなHTML/CSS/JavaScriptコードの生成が大幅に改善され、インタラクティブなUI2Codeベンチマークと静的なUI2Codeベンチマークの両方で、彼らのベースコードよりも優れています。
私たちのコードとモデルは、 \href{https://zheny2751-dotcom.github.io/webvia.github.io/}{\texttt{https://webvia.github.io}}で利用可能です。
関連論文リスト
- ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents [40.697759330690815]
ScreenCoderはモジュール型のマルチエージェントフレームワークで、タスクを3つの解釈可能なステージ(グラウンド、プランニング、生成)に分解する。
特殊エージェントにこれらの異なる責任を割り当てることで、我々のフレームワークはエンド・ツー・エンドのアプローチよりもはるかに高い堅牢性と忠実性を達成する。
提案手法は, レイアウト精度, 構造コヒーレンス, コード正確性において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T16:41:21Z) - UICopilot: Automating UI Synthesis via Hierarchical Code Generation from Webpage Designs [43.006316221657904]
本稿では,Webページの設計から階層的なコード生成によってユーザインタフェース(UI)を自動生成する手法を提案する。
UICopilotの基本的な考え方は、生成プロセスを2つのステージに分解することである。
実験の結果、UICopilotは、自動評価と人的評価の両方において、既存のベースラインを大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2025-05-15T02:09:54Z) - InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection [38.833925781308665]
MLLMベースのGUIエージェントである textitInfiGUIAgent を2段階の教師付き微調整パイプラインでトレーニングした。
ステージ1はGUIの理解や接地といった基本的なスキルを強化し、ステージ2は階層的推論と予測反射推論のスキルを統合する。
textitInfiGUIAgentは、いくつかのGUIベンチマークで競合するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-08T15:45:21Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウザエージェントを上回っている。
ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。
結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文 参考訳(メタデータ) (2024-10-21T19:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。