論文の概要: FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation
- arxiv url: http://arxiv.org/abs/2506.13832v2
- Date: Wed, 18 Jun 2025 13:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 13:10:45.375394
- Title: FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation
- Title(参考訳): FrontendBench: 自動評価によるフロントエンド開発におけるLLMの評価ベンチマーク
- Authors: Hongda Zhu, Yiwen Zhang, Bing Zhao, Jingzhe Ding, Siyao Liu, Tong Liu, Dandan Wang, Yanan Liu, Zhaojian Li,
- Abstract要約: FrontendBenchは、人間と大規模言語モデル(LLM)が共同開発したベンチマークである。
このベンチマークは、5つのレベルのWebコンポーネントにまたがる、148の厳密なプロンプト-テストケースペアで構成されている。
自動評価フレームワークはサンドボックス環境内で生成されたコードを実行し、事前に定義されたテストスクリプトを使用して結果を評価する。
- 参考スコア(独自算出の注目度): 17.64876163735292
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have made significant strides in front-end code generation. However, existing benchmarks exhibit several critical limitations: many tasks are overly simplistic, test cases often lack rigor, and end-to-end validation is absent. These issues hinder the accurate assessment of model performance. To address these challenges, we present FrontendBench, a benchmark co-developed by humans and LLMs. FrontendBench categorizes tasks based on code functionality and incorporates interactive test scenarios, enabling a more comprehensive and practical evaluation of front-end code generation capabilities. The benchmark comprises 148 meticulously crafted prompt-test case pairs spanning five levels of web components, from basic UI elements to complex interactive features. Each task reflects realistic front-end development challenges. Furthermore, we introduce an automatic evaluation framework that executes generated code within a sandbox environment and assesses outcomes using predefined test scripts. This framework achieves a 90.54% agreement rate with expert human evaluations, demonstrating high reliability. We benchmark several state-of-the-art LLMs on FrontendBench and observe substantial performance disparities in handling real-world front-end tasks. These results highlight FrontendBench as a reliable and scalable benchmark, supporting consistent multimodal evaluation and providing a robust foundation for future research in front-end code generation. Our data and code will be released soon.
- Abstract(参考訳): 大規模言語モデル(LLM)は、フロントエンドコード生成において大きな進歩を遂げている。
しかし、既存のベンチマークにはいくつかの重要な制限がある。多くのタスクは過度に単純化され、テストケースは厳密さが欠如しており、エンドツーエンドの検証が欠如している。
これらの問題はモデル性能の正確な評価を妨げる。
これらの課題に対処するために、人間とLLMが共同開発したベンチマークであるFrontendBenchを紹介する。
FrontendBenchは、コード機能に基づいてタスクを分類し、インタラクティブなテストシナリオを取り入れ、フロントエンドコード生成機能をより包括的で実践的な評価を可能にする。
このベンチマークは、基本的なUI要素から複雑なインタラクティブ機能まで、5つのレベルのWebコンポーネントにまたがる、148の厳密なプロンプト-テストケースペアで構成されている。
各タスクは、現実的なフロントエンド開発課題を反映します。
さらに、サンドボックス環境で生成されたコードを実行する自動評価フレームワークを導入し、事前に定義されたテストスクリプトを用いて結果を評価する。
このフレームワークは、専門家による評価と90.54%の合意率を獲得し、高い信頼性を示す。
我々は、FrontendBench上で最先端のLLMをベンチマークし、実世界のフロントエンドタスクの処理において、かなりの性能格差を観察する。
これらの結果は、FrontendBenchを信頼性とスケーラブルなベンチマークとして強調し、一貫性のあるマルチモーダル評価をサポートし、フロントエンドコード生成における将来の研究のための堅牢な基盤を提供する。
もうすぐデータとコードはリリースされます。
関連論文リスト
- CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments [1.3999481573773072]
本稿では,命令追従機能の評価を行うマルチ言語ベンチマークを提案する。
本ベンチマークでは、初期問題に規定された事前定義された制約の順守と、フォローアップ命令に基づいて改善を行う能力の2つの主要な設定で命令に従うことを評価する。
論文 参考訳(メタデータ) (2025-10-31T15:47:07Z) - TREAT: A Code LLMs Trustworthiness / Reliability Evaluation and Testing Framework [37.14734285161928]
本稿では,コードインテリジェンスタスクにおけるモデル性能の総合評価を行う評価フレームワークを提案する。
評価フレームワークは、既存のアプローチにおける重要な制限に対処し、主な改善点を4つ挙げた。
この評価枠組みに基づき,26の最先端モデルを評価し,その強度と限界を明らかにする。
論文 参考訳(メタデータ) (2025-10-20T05:05:00Z) - Saving SWE-Bench: A Benchmark Mutation Approach for Realistic Agent Evaluation [5.332969177132911]
SWE-Bench Verifiedのようなソフトウェアエンジニアリングエージェントを評価するための現在のベンチマークは、主にGitHubの問題に由来する。
既存のベンチマークを現実的なユーザクエリに変換する,新たなベンチマークフレームワークを導入する。
論文 参考訳(メタデータ) (2025-10-10T04:42:02Z) - IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。
IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T12:38:06Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [48.24550684610705]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation [31.237236649603123]
MLLM(Multimodal Large Language Models)は、フロントエンドの自動化において顕著な機能を示す。
DesignBenchは、自動フロントエンドエンジニアリングにおけるMLLMの機能を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-06-06T17:21:21Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation [1.7268889851975326]
私たちは、テスト駆動開発(TDD)タスクにおいて、大規模言語モデル(LLM)を評価するための新しいベンチマークであるWebApp1Kを紹介します。
自然言語のプロンプトに依存する従来のアプローチとは異なり、我々のベンチマークでは、LLMがテストケースから直接機能を解釈し実装する能力を強調しています。
論文 参考訳(メタデータ) (2025-05-13T23:47:12Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文 参考訳(メタデータ) (2025-03-07T08:56:20Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。
現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。
textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。
我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - RepoMasterEval: Evaluating Code Completion via Real-World Repositories [12.176098357240095]
RepoMasterEvalは、現実のPythonとTypeScriptリポジトリから構築されたコード補完モデルを評価するための新しいベンチマークである。
モデル生成コードのテスト精度を向上させるため,テストケースの有効性を測定するために突然変異試験を用いる。
6つの最先端モデルに対する実証的な評価は、テスト議論がベンチマークの精度向上に重要であることを示している。
論文 参考訳(メタデータ) (2024-08-07T03:06:57Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。