論文の概要: VisRefiner: Learning from Visual Differences for Screenshot-to-Code Generation
- arxiv url: http://arxiv.org/abs/2602.05998v1
- Date: Thu, 05 Feb 2026 18:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.13211
- Title: VisRefiner: Learning from Visual Differences for Screenshot-to-Code Generation
- Title(参考訳): VisRefiner: スクリーンショットからコード生成の視覚的違いから学ぶ
- Authors: Jie Deng, Kaichun Yao, Libo Zhang,
- Abstract要約: Screenshot-to-code生成は、ユーザインターフェースのスクリーンショットを、ターゲットのレイアウトとスタイルを忠実に再現する実行可能なコードに変換することを目的としている。
既存のマルチモーダルな大規模言語モデルは、スクリーンショットから直接このマッピングを実行するが、生成されたコードの視覚的な結果を観察せずに訓練される。
対照的に、ヒューマン開発者は、実装を反復的にレンダリングし、設計と比較し、コードの変更と視覚的な違いがどのように関連しているかを学ぶ。
モデルがレンダリング予測と参照設計の視覚的差異から学習できるようにするトレーニングフレームワークであるVisRefinerを提案する。
- 参考スコア(独自算出の注目度): 11.069063844802661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Screenshot-to-code generation aims to translate user interface screenshots into executable frontend code that faithfully reproduces the target layout and style. Existing multimodal large language models perform this mapping directly from screenshots but are trained without observing the visual outcomes of their generated code. In contrast, human developers iteratively render their implementation, compare it with the design, and learn how visual differences relate to code changes. Inspired by this process, we propose VisRefiner, a training framework that enables models to learn from visual differences between rendered predictions and reference designs. We construct difference-aligned supervision that associates visual discrepancies with corresponding code edits, allowing the model to understand how appearance variations arise from implementation changes. Building on this, we introduce a reinforcement learning stage for self-refinement, where the model improves its generated code by observing both the rendered output and the target design, identifying their visual differences, and updating the code accordingly. Experiments show that VisRefiner substantially improves single-step generation quality and layout fidelity, while also endowing models with strong self-refinement ability. These results demonstrate the effectiveness of learning from visual differences for advancing screenshot-to-code generation.
- Abstract(参考訳): Screenshot-to-code 生成は、ユーザインターフェースのスクリーンショットを、ターゲットのレイアウトとスタイルを忠実に再現する実行可能なフロントエンドコードに変換することを目的としている。
既存のマルチモーダルな大規模言語モデルは、スクリーンショットから直接このマッピングを実行するが、生成されたコードの視覚的な結果を観察せずに訓練される。
対照的に、ヒューマン開発者は反復的に実装をレンダリングし、設計と比較し、コードの変更に視覚的な違いがどう関係するかを学ぶ。
このプロセスにインスパイアされたVisRefinerは、モデルがレンダリングされた予測と参照設計の視覚的差異から学習できるようにするトレーニングフレームワークである。
我々は、視覚的不一致と対応するコード編集を関連付ける差分整合の監督を構築し、実装の変更による外観の変化がどのように起こるのかをモデルが理解できるようにする。
そこで本研究では, 出力とターゲット設計の両方を観測し, 視覚的差異を識別し, コード更新を行うことにより, モデルが生成したコードを改善する自己精製のための強化学習ステージを提案する。
実験により、VisRefinerはシングルステップ生成の品質とレイアウトの忠実度を大幅に改善し、強力な自己補充能力を持つモデルも提供した。
これらの結果は、スクリーンショット・コード生成の進歩における視覚的差異から学ぶことの有効性を示す。
関連論文リスト
- How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。
本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。
プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T09:24:45Z) - Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models [50.87835332136393]
CoT(Chain-of-Thought)は統一モデルの生成能力を大幅に改善した。
本稿では,統一モデルの推論に視覚的コンテキスト整合性を導入する。
教師付きファインタニングを用いて、視覚的チェックの計画方法を教え、自己回帰と自己精製を行い、フロー-GRPOを使用して視覚的一貫性をさらに向上する。
論文 参考訳(メタデータ) (2025-12-22T18:59:03Z) - Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling [54.54513714247062]
OmniGenのような統合画像生成モデルの最近の進歩により、単一のフレームワーク内で多様な画像生成および編集タスクの処理が可能になった。
テキスト命令が複数のサブインストラクションを含む場合,テキスト命令の無視に悩まされることがわかった。
本稿では,サブインストラクション毎に注意力の活性化を動的にスケールするために,自己適応型注意スケーリングを提案する。
論文 参考訳(メタデータ) (2025-07-22T05:25:38Z) - Image Reconstruction as a Tool for Feature Analysis [2.0249250133493195]
本稿では,画像再構成による視覚特徴の解釈のための新しい手法を提案する。
画像ベースタスクで事前訓練されたエンコーダは、非画像タスクで訓練されたものよりも、はるかに多くの画像情報を保持することを示す。
我々のアプローチはどんな視覚エンコーダにも適用でき、特徴空間の内部構造に光を遮ることができる。
論文 参考訳(メタデータ) (2025-06-09T14:32:18Z) - LLM Code Customization with Visual Results: A Benchmark on TikZ [6.3303908500560615]
我々は,協調的な視覚的成果を保ちながらコードをカスタマイズする大規模言語モデルの能力を評価する最初のベンチマークであるvTikZを紹介した。
我々のベンチマークは、慎重にキュレートされたvTikZ編集シナリオ、パラメータ化された基底真理、そして視覚フィードバックを利用して正当性を評価するレビューツールから構成されている。
論文 参考訳(メタデータ) (2025-05-07T08:26:54Z) - UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding [84.87802580670579]
離散表現と連続表現の組み合わせによって視覚入力を符号化する自動回帰生成モデルUniTokenを導入する。
我々の統合ビジュアルエンコーディングフレームワークは、多次元情報を提供しながら、高レベルのセマンティクスと低レベルの詳細の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-04-06T09:20:49Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model [38.61292051733335]
VARGPTは,単一の自己回帰フレームワーク内で視覚的理解と生成を統一する,新しいマルチモーダル大規模言語モデルである。
VarGPTは視覚理解のための次世代予測パラダイムと、視覚自己回帰生成のための次世代予測パラダイムを採用している。
特に、VARGPTは自己回帰的視覚生成と命令-画像合成の能力を自然にサポートし、視覚的理解と生成の両タスクにおいてその汎用性を示す。
論文 参考訳(メタデータ) (2025-01-21T17:50:43Z) - Object-level Visual Prompts for Compositional Image Generation [75.6085388740087]
テキストから画像への拡散モデルにおいて,オブジェクトレベルの視覚的プロンプトを構成する手法を提案する。
このタスクにおける重要な課題は、入力された視覚的プロンプトで表現されたオブジェクトのアイデンティティを保持することである。
我々は、キーと値が異なる視覚的表現から学習される新しいKV混合のクロスアテンション機構を導入する。
論文 参考訳(メタデータ) (2025-01-02T18:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。