論文の概要: 1D-Bench: A Benchmark for Iterative UI Code Generation with Visual Feedback in Real-World
- arxiv url: http://arxiv.org/abs/2602.18548v1
- Date: Fri, 20 Feb 2026 17:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.15819
- Title: 1D-Bench: A Benchmark for Iterative UI Code Generation with Visual Feedback in Real-World
- Title(参考訳): 1D-Bench: 実世界のビジュアルフィードバックを備えた反復UIコード生成ベンチマーク
- Authors: Qiao Xu, Yipeng Yu, Chengxiao Feng, Xu Liu,
- Abstract要約: 実電子商取引を基盤としたベンチマークである1D-Benchを導入し、各インスタンスが参照レンダリングとエクスポート中間表現を提供する。
1Dは1日で短く、設計からコーディングまでのタスクを1日以内で効率的に完了する。
- 参考スコア(独自算出の注目度): 5.904589000032003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Design-to-code translates high-fidelity UI designs into executable front-end implementations, but progress remains hard to compare due to inconsistent datasets, toolchains, and evaluation protocols. We introduce 1D-Bench, a benchmark grounded in real e-commerce workflows, where each instance provides a reference rendering and an exported intermediate representation that may contain extraction errors. 1D is short for one day, representing the efficient completion of design-to-code tasks in less than one day. Models take both as input, using the intermediate representation as structural cues while being evaluated against the reference rendering, which tests robustness to intermediate representation defects rather than literal adherence. 1D-Bench requires generating an executable React codebase under a fixed toolchain with an explicit component hierarchy, and defines a multi-round setting in which models iteratively apply component-level edits using execution feedback. Experiments on commercial and open-weight multimodal models show that iterative editing generally improves final performance by increasing rendering success and often improving visual similarity. We further conduct a pilot study on post-training with synthetic repair trajectories and reinforcement learning based editing, and observe limited and unstable gains that may stem from sparse terminal rewards and high-variance file-level updates.
- Abstract(参考訳): Design-to-codeは、高忠実度UI設計を実行可能なフロントエンド実装に変換するが、一貫性のないデータセット、ツールチェーン、評価プロトコルのために、進歩はいまだに比較が難しい。
実際のeコマースワークフローをベースとしたベンチマークである1D-Benchを導入し、各インスタンスが参照レンダリングとエクスポート中間表現を提供し、抽出エラーを含む可能性がある。
1Dは1日で短く、設計からコーディングまでのタスクを1日以内で効率的に完了する。
モデルは、中間表現を構造的手がかりとして用いながら、参照レンダリングに対して評価し、リテラル付着ではなく中間表現欠陥に対して堅牢性をテストする。
1D-Benchは、明確なコンポーネント階層を持つ固定ツールチェーンの下で実行可能なReactコードベースを生成することを必要とし、モデルが実行フィードバックを使用してコンポーネントレベルの編集を反復的に適用するマルチラウンド設定を定義する。
商用およびオープンウェイトなマルチモーダルモデルの実験では、反復的な編集がレンダリングの成功を高め、視覚的類似性を改善することで、最終的なパフォーマンスを改善することが示されている。
さらに, 補修軌道と強化学習に基づく編集によるポストトレーニングのパイロット研究を行い, 少ない端末報酬と高分散ファイルレベルの更新から生じる、限定的かつ不安定なゲインを観察する。
関連論文リスト
- ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models [4.257440824082894]
ChartEditBenchは、コードによるインクリメンタルで視覚的なグラフ編集のためのベンチマークです。
以前のワンショットベンチマークとは異なり、ChartEditBenchは持続的でコンテキスト対応の編集を評価する。
最先端のMLLMを用いた実験では、エラーの蓄積と共有コンテキストの分解により、マルチターン設定が大幅に劣化することが示された。
論文 参考訳(メタデータ) (2026-02-17T17:45:34Z) - VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文 参考訳(メタデータ) (2025-12-31T16:31:59Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - HEAS: Hierarchical Evolutionary Agent Simulation Framework for Cross-Scale Modeling and Multi-Objective Search [4.807104001943257]
階層シミュレーションエージェント(Hierarchical Simulation Agent, HEAS)は、階層化されたエージェントベースのモデリングを進化的最適化とトーナメント評価で統合するPythonフレームワークである。
HEASは、共有コンテキストを読み書きする決定論的レイヤにスケジュールされた軽量プロセス(ストリーム)の階層としてモデルを表現する。
compact APIとCLIは、シングルオブジェクトとマルチオブジェクトの進化をシミュレートし、最適化し、評価します。
論文 参考訳(メタデータ) (2025-08-21T13:35:46Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。