論文の概要: FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation
- arxiv url: http://arxiv.org/abs/2506.13832v2
- Date: Wed, 18 Jun 2025 13:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 13:10:45.375394
- Title: FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation
- Title(参考訳): FrontendBench: 自動評価によるフロントエンド開発におけるLLMの評価ベンチマーク
- Authors: Hongda Zhu, Yiwen Zhang, Bing Zhao, Jingzhe Ding, Siyao Liu, Tong Liu, Dandan Wang, Yanan Liu, Zhaojian Li,
- Abstract要約: FrontendBenchは、人間と大規模言語モデル(LLM)が共同開発したベンチマークである。
このベンチマークは、5つのレベルのWebコンポーネントにまたがる、148の厳密なプロンプト-テストケースペアで構成されている。
自動評価フレームワークはサンドボックス環境内で生成されたコードを実行し、事前に定義されたテストスクリプトを使用して結果を評価する。
- 参考スコア(独自算出の注目度): 17.64876163735292
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have made significant strides in front-end code generation. However, existing benchmarks exhibit several critical limitations: many tasks are overly simplistic, test cases often lack rigor, and end-to-end validation is absent. These issues hinder the accurate assessment of model performance. To address these challenges, we present FrontendBench, a benchmark co-developed by humans and LLMs. FrontendBench categorizes tasks based on code functionality and incorporates interactive test scenarios, enabling a more comprehensive and practical evaluation of front-end code generation capabilities. The benchmark comprises 148 meticulously crafted prompt-test case pairs spanning five levels of web components, from basic UI elements to complex interactive features. Each task reflects realistic front-end development challenges. Furthermore, we introduce an automatic evaluation framework that executes generated code within a sandbox environment and assesses outcomes using predefined test scripts. This framework achieves a 90.54% agreement rate with expert human evaluations, demonstrating high reliability. We benchmark several state-of-the-art LLMs on FrontendBench and observe substantial performance disparities in handling real-world front-end tasks. These results highlight FrontendBench as a reliable and scalable benchmark, supporting consistent multimodal evaluation and providing a robust foundation for future research in front-end code generation. Our data and code will be released soon.
- Abstract(参考訳): 大規模言語モデル(LLM)は、フロントエンドコード生成において大きな進歩を遂げている。
しかし、既存のベンチマークにはいくつかの重要な制限がある。多くのタスクは過度に単純化され、テストケースは厳密さが欠如しており、エンドツーエンドの検証が欠如している。
これらの問題はモデル性能の正確な評価を妨げる。
これらの課題に対処するために、人間とLLMが共同開発したベンチマークであるFrontendBenchを紹介する。
FrontendBenchは、コード機能に基づいてタスクを分類し、インタラクティブなテストシナリオを取り入れ、フロントエンドコード生成機能をより包括的で実践的な評価を可能にする。
このベンチマークは、基本的なUI要素から複雑なインタラクティブ機能まで、5つのレベルのWebコンポーネントにまたがる、148の厳密なプロンプト-テストケースペアで構成されている。
各タスクは、現実的なフロントエンド開発課題を反映します。
さらに、サンドボックス環境で生成されたコードを実行する自動評価フレームワークを導入し、事前に定義されたテストスクリプトを用いて結果を評価する。
このフレームワークは、専門家による評価と90.54%の合意率を獲得し、高い信頼性を示す。
我々は、FrontendBench上で最先端のLLMをベンチマークし、実世界のフロントエンドタスクの処理において、かなりの性能格差を観察する。
これらの結果は、FrontendBenchを信頼性とスケーラブルなベンチマークとして強調し、一貫性のあるマルチモーダル評価をサポートし、フロントエンドコード生成における将来の研究のための堅牢な基盤を提供する。
もうすぐデータとコードはリリースされます。
関連論文リスト
- DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation [31.237236649603123]
MLLM(Multimodal Large Language Models)は、フロントエンドの自動化において顕著な機能を示す。
DesignBenchは、自動フロントエンドエンジニアリングにおけるMLLMの機能を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-06-06T17:21:21Z) - Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation [1.7268889851975326]
私たちは、テスト駆動開発(TDD)タスクにおいて、大規模言語モデル(LLM)を評価するための新しいベンチマークであるWebApp1Kを紹介します。
自然言語のプロンプトに依存する従来のアプローチとは異なり、我々のベンチマークでは、LLMがテストケースから直接機能を解釈し実装する能力を強調しています。
論文 参考訳(メタデータ) (2025-05-13T23:47:12Z) - WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文 参考訳(メタデータ) (2025-03-07T08:56:20Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。
現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。
textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。
我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - RepoMasterEval: Evaluating Code Completion via Real-World Repositories [12.176098357240095]
RepoMasterEvalは、現実のPythonとTypeScriptリポジトリから構築されたコード補完モデルを評価するための新しいベンチマークである。
モデル生成コードのテスト精度を向上させるため,テストケースの有効性を測定するために突然変異試験を用いる。
6つの最先端モデルに対する実証的な評価は、テスト議論がベンチマークの精度向上に重要であることを示している。
論文 参考訳(メタデータ) (2024-08-07T03:06:57Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。