Fugu-MT 論文翻訳(概要): FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation

論文の概要: FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation

arxiv url: http://arxiv.org/abs/2506.13832v2
Date: Wed, 18 Jun 2025 13:10:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 13:10:45.375394
Title: FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation
Title（参考訳）: FrontendBench: 自動評価によるフロントエンド開発におけるLLMの評価ベンチマーク
Authors: Hongda Zhu, Yiwen Zhang, Bing Zhao, Jingzhe Ding, Siyao Liu, Tong Liu, Dandan Wang, Yanan Liu, Zhaojian Li,
Abstract要約: FrontendBenchは、人間と大規模言語モデル(LLM)が共同開発したベンチマークである。このベンチマークは、5つのレベルのWebコンポーネントにまたがる、148の厳密なプロンプト-テストケースペアで構成されている。自動評価フレームワークはサンドボックス環境内で生成されたコードを実行し、事前に定義されたテストスクリプトを使用して結果を評価する。
参考スコア（独自算出の注目度）: 17.64876163735292
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) have made significant strides in front-end code generation. However, existing benchmarks exhibit several critical limitations: many tasks are overly simplistic, test cases often lack rigor, and end-to-end validation is absent. These issues hinder the accurate assessment of model performance. To address these challenges, we present FrontendBench, a benchmark co-developed by humans and LLMs. FrontendBench categorizes tasks based on code functionality and incorporates interactive test scenarios, enabling a more comprehensive and practical evaluation of front-end code generation capabilities. The benchmark comprises 148 meticulously crafted prompt-test case pairs spanning five levels of web components, from basic UI elements to complex interactive features. Each task reflects realistic front-end development challenges. Furthermore, we introduce an automatic evaluation framework that executes generated code within a sandbox environment and assesses outcomes using predefined test scripts. This framework achieves a 90.54% agreement rate with expert human evaluations, demonstrating high reliability. We benchmark several state-of-the-art LLMs on FrontendBench and observe substantial performance disparities in handling real-world front-end tasks. These results highlight FrontendBench as a reliable and scalable benchmark, supporting consistent multimodal evaluation and providing a robust foundation for future research in front-end code generation. Our data and code will be released soon.
Abstract（参考訳）: 大規模言語モデル(LLM)は、フロントエンドコード生成において大きな進歩を遂げている。しかし、既存のベンチマークにはいくつかの重要な制限がある。多くのタスクは過度に単純化され、テストケースは厳密さが欠如しており、エンドツーエンドの検証が欠如している。これらの問題はモデル性能の正確な評価を妨げる。これらの課題に対処するために、人間とLLMが共同開発したベンチマークであるFrontendBenchを紹介する。 FrontendBenchは、コード機能に基づいてタスクを分類し、インタラクティブなテストシナリオを取り入れ、フロントエンドコード生成機能をより包括的で実践的な評価を可能にする。このベンチマークは、基本的なUI要素から複雑なインタラクティブ機能まで、5つのレベルのWebコンポーネントにまたがる、148の厳密なプロンプト-テストケースペアで構成されている。各タスクは、現実的なフロントエンド開発課題を反映します。さらに、サンドボックス環境で生成されたコードを実行する自動評価フレームワークを導入し、事前に定義されたテストスクリプトを用いて結果を評価する。このフレームワークは、専門家による評価と90.54%の合意率を獲得し、高い信頼性を示す。我々は、FrontendBench上で最先端のLLMをベンチマークし、実世界のフロントエンドタスクの処理において、かなりの性能格差を観察する。これらの結果は、FrontendBenchを信頼性とスケーラブルなベンチマークとして強調し、一貫性のあるマルチモーダル評価をサポートし、フロントエンドコード生成における将来の研究のための堅牢な基盤を提供する。もうすぐデータとコードはリリースされます。

関連論文リスト

MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [48.24550684610705]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文参考訳（メタデータ） (2025-07-07T12:53:00Z)
DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation [31.237236649603123]
MLLM(Multimodal Large Language Models)は、フロントエンドの自動化において顕著な機能を示す。 DesignBenchは、自動フロントエンドエンジニアリングにおけるMLLMの機能を評価するためのベンチマークである。
論文参考訳（メタデータ） (2025-06-06T17:21:21Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation [1.7268889851975326]
私たちは、テスト駆動開発(TDD)タスクにおいて、大規模言語モデル(LLM)を評価するための新しいベンチマークであるWebApp1Kを紹介します。自然言語のプロンプトに依存する従来のアプローチとは異なり、我々のベンチマークでは、LLMがテストケースから直接機能を解釈し実装する能力を強調しています。
論文参考訳（メタデータ） (2025-05-13T23:47:12Z)
Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。 TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文参考訳（メタデータ） (2025-04-29T13:52:47Z)
WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文参考訳（メタデータ） (2025-03-07T08:56:20Z)
The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。 NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文参考訳（メタデータ） (2024-12-02T20:49:21Z)
TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。 textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文参考訳（メタデータ） (2024-10-15T11:20:42Z)
RepoMasterEval: Evaluating Code Completion via Real-World Repositories [12.176098357240095]
RepoMasterEvalは、現実のPythonとTypeScriptリポジトリから構築されたコード補完モデルを評価するための新しいベンチマークである。モデル生成コードのテスト精度を向上させるため,テストケースの有効性を測定するために突然変異試験を用いる。 6つの最先端モデルに対する実証的な評価は、テスト議論がベンチマークの精度向上に重要であることを示している。
論文参考訳（メタデータ） (2024-08-07T03:06:57Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文参考訳（メタデータ） (2024-02-18T03:40:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。