論文の概要: UIBenchKit: A unified toolkit for design-to-code model evaluation
- arxiv url: http://arxiv.org/abs/2605.13141v1
- Date: Wed, 13 May 2026 08:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.89418
- Title: UIBenchKit: A unified toolkit for design-to-code model evaluation
- Title(参考訳): UIBenchKit: 設計からコードへのモデル評価のための統合ツールキット
- Authors: Chinh T. Le, Trevor Ong Yee Siang, Jingyu Xiao, Yuxuan Wan, Yintong Huo,
- Abstract要約: デザイン・ツー・コードタスクの評価を統一するオープンソース統合ツールキットであるUIBenchKitを紹介した。
既存のツールのベンチマーク調査を行い、今後の改善の方向性を示すいくつかの知見を導出する。
- 参考スコア(独自算出の注目度): 10.130295479347813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen substantial progress in automated design-to-code generation, with many methods proposed for generating HTML and CSS from webpage screenshots. However, the absence of a standardized evaluation platform makes it difficult to compare these methods fairly, limiting both practical adoption and systematic research progress. To bridge this gap, we introduce UIBenchKit, an open-source, integrated toolkit designed to unify the evaluation of design-to-code tasks. UIBenchKit abstracts the complexities of environment setup, model inference, and code rendering, offering researchers a plug-and-play architecture to compare various methods under consistent settings. In addition, it offers an analytical interface for comparison across multiple metrics. Using UIBenchKit, we conduct a benchmarking study of existing tools and derive several findings that highlight directions for future improvement. By providing a streamlined environment for both experimentation and evaluation, UIBenchKit aims to accelerate future benchmarking and innovations in web engineering. The evaluation platform and toolkit are available at the project page https://www.uibenchkit.com/.
- Abstract(参考訳): 近年、WebページのスクリーンショットからHTMLとCSSを生成するための多くの方法が提案されている。
しかし、標準化された評価プラットフォームがないため、これらの手法を公平に比較することは困難であり、実践的な採用と体系的な研究の進展が制限される。
このギャップを埋めるために、UIBenchKitを紹介します。UIBenchKitは、設計・コーディングタスクの評価を統合するために設計されたオープンソースの統合ツールキットです。
UIBenchKitは環境設定、モデル推論、コードレンダリングの複雑さを抽象化し、研究者が一貫性のある設定下でさまざまなメソッドを比較するためのプラグイン・アンド・プレイアーキテクチャを提供する。
さらに、複数のメトリクスを比較するための分析インターフェイスも提供する。
UIBenchKitを使って、既存のツールのベンチマーク調査を行い、今後の改善の方向性を示すいくつかの発見を導き出します。
UIBenchKitは、実験と評価の両方のための合理化された環境を提供することで、将来のベンチマークとWebエンジニアリングの革新を加速することを目指している。
評価プラットフォームとツールキットはプロジェクトページ https://www.uibenchkit.com/ で公開されている。
関連論文リスト
- WebRenderBench: Enhancing Web Interface Generation through Layout-Style Consistency and Reinforcement Learning [24.178675410636135]
実世界のポータルサイトから収集した45.1kのWebページの大規模なベンチマークを示す。
また、最終レンダリングページからレイアウトとスタイルの整合性を測定する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2025-10-05T08:47:39Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [116.34503234243202]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。
VLMEvalKitは、研究者や開発者が既存のマルチモダリティモデルを評価するための包括的なフレームワークを提供することを目的としている。
論文 参考訳(メタデータ) (2024-07-16T13:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。