論文の概要: Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks
- arxiv url: http://arxiv.org/abs/2505.07473v1
- Date: Mon, 12 May 2025 12:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.365123
- Title: Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks
- Title(参考訳): Web-Bench: Web標準とフレームワークに基づいたLLMコードベンチマーク
- Authors: Kai Xu, YiWei Mao, XinYi Guan, ZiLong Feng,
- Abstract要約: 我々は、50のプロジェクトを含む新しいベンチマークであるWeb-Benchを提案し、それぞれが連続的な依存関係を持つ20のタスクで構成されている。
Web 開発の基本要素である Web 標準と Web フレームワークをカバーすることを目指しています。
ベンチマークエージェント(Web-Agent)では、SOTA(Claude 3.7 Sonnet)が25.1%のPass@1しか達成せず、SWE-Benchの検証(65.4%)とFull(33.8%)のスコアよりも大幅に低い(ベター)。
- 参考スコア(独自算出の注目度): 6.303398878886812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of large language models (LLMs) in the field of coding is evolving rapidly: from code assistants, to autonomous coding agents, and then to generating complete projects through natural language. Early LLM code benchmarks primarily focused on code generation accuracy, but these benchmarks have gradually become saturated. Benchmark saturation weakens their guiding role for LLMs. For example, HumanEval Pass@1 has reached 99.4% and MBPP 94.2%. Among various attempts to address benchmark saturation, approaches based on software engineering have stood out, but the saturation of existing software engineering benchmarks is rapidly increasing. To address this, we propose a new benchmark, Web-Bench, which contains 50 projects, each consisting of 20 tasks with sequential dependencies. The tasks implement project features in sequence, simulating real-world human development workflows. When designing Web-Bench, we aim to cover the foundational elements of Web development: Web Standards and Web Frameworks. Given the scale and complexity of these projects, which were designed by engineers with 5 to 10 years of experience, each presents a significant challenge. On average, a single project takes 4 to 8 hours for a senior engineer to complete. On our given benchmark agent (Web-Agent), SOTA (Claude 3.7 Sonnet) achieves only 25.1% Pass@1, significantly lower (better) than SWE-Bench's Verified (65.4%) and Full (33.8%) scores. Finally, we discuss that in any development field, Standards and Frameworks represent foundational knowledge and efficiency tools, respectively, and LLMs require optimization tailored to them.
- Abstract(参考訳): コーディング分野における大規模言語モデル(LLM)の適用は、コードアシスタントから自律的なコーディングエージェント、そして自然言語による完全なプロジェクト生成に至るまで、急速に進化している。
初期のLCMのコードベンチマークは主にコード生成の精度に重点を置いていたが、これらのベンチマークは徐々に飽和している。
ベンチマーク飽和はLLMのガイドの役割を弱める。
例えば、HumanEval Pass@1は99.4%、MBPP 94.2%に達した。
ベンチマーク飽和に対処する試みとしては,ソフトウェア工学に基づくアプローチが目立ったが,既存のソフトウェア工学ベンチマークの飽和は急速に増加している。
これを解決するために、50のプロジェクトを含む新しいベンチマークであるWeb-Benchを提案し、それぞれがシーケンシャルな依存関係を持つ20のタスクで構成されている。
タスクは、実際のヒューマン開発ワークフローをシミュレートして、プロジェクト機能を順次実装する。
Web-Benchを設計する際には、Web開発の基礎となる要素であるWeb StandardsとWeb Frameworksをカバーすることを目指しています。
5年から10年の経験を持つエンジニアが設計したこれらのプロジェクトの規模と複雑さを考えると、それぞれが大きな課題を示します。
平均して、1つのプロジェクトは、シニアエンジニアが完了するのに4~8時間かかります。
ベンチマークエージェント(Web-Agent)では、SOTA(Claude 3.7 Sonnet)が25.1%のPass@1しか達成せず、SWE-Benchの検証(65.4%)とFull(33.8%)のスコアよりも大幅に低い(ベター)。
最後に、どの開発分野においても、標準とフレームワークはそれぞれ基礎知識と効率のツールを表現し、LLMはそれらに合わせて最適化を必要とすることを議論する。
関連論文リスト
- RealBench: Benchmarking Verilog Generation Models with Real-World IP Designs [26.993718615404926]
本稿では,実世界のIPレベルのVerilog生成タスクを対象とした最初のベンチマークであるRealBenchを紹介する。
RealBenchは複雑で構造化された、実世界のオープンソースIP設計、マルチモーダルおよびフォーマット設計仕様、厳密な検証環境を備えている。
様々なLLMおよびエージェントの評価によると、最も優れたLLMの1つであるo1-previewでさえ、モジュールレベルのタスクでは13.3%のpass@1しか達成せず、システムレベルのタスクでは0%である。
論文 参考訳(メタデータ) (2025-07-22T03:29:23Z) - WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code [57.45181837786448]
MLLM(Multimodal Large Language Models)は、複雑なWebアプリケーション開発を実行するAIソフトウェアエンジニアとして機能する可能性がある。
既存のベンチマークは、通常、サブ能力の評価を提供し、Webページ生成結果のみに焦点を当てない。
WebUIパーセプション、HTMLプログラミング、WebUI-HTML理解、WebUI-to-Codeの4つの主要な領域でMLLMを評価するために体系的に設計されたベンチマークであるWebUIBenchを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:46:02Z) - EmbedAgent: Benchmarking Large Language Models in Embedded System Development [41.849233931919265]
大規模言語モデル(LLM)は様々なタスクにおいて有望であるが、組み込みシステム開発におけるその能力を評価するベンチマークは少ない。
組込みシステム開発における現実の役割をシミュレートするパラダイムである EmbedAgent を紹介する。
組込みシステムプログラミング、回路設計、クロスプラットフォームマイグレーションのための最初の包括的なベンチマークであるEmbedbenchを提案する。
論文 参考訳(メタデータ) (2025-04-19T12:51:24Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering [74.99736967448423]
私たちは、このタスクのための最初の実世界のベンチマークであるDesign2Codeを構築します。
テストケースとして484の多様な実世界のWebページを手作業でキュレートし、自動評価指標のセットを開発する。
我々の詳細なブレークダウンメトリクスは、入力されたWebページから視覚要素をリコールし、正しいレイアウト設計を生成するモデルがほとんど遅れていることを示している。
論文 参考訳(メタデータ) (2024-03-05T17:56:27Z) - CodePori: Large-Scale System for Autonomous Software Development Using Multi-Agent Technology [4.2990995991059275]
大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformer)は、ソフトウェア工学の分野を変えました。
我々は,大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化するように設計された,新しいシステムであるCodePoriを紹介する。
結果: CodePoriは、典型的なソフトウェア開発プロセスに合わせて、大規模プロジェクトの実行コードを生成することができる。
論文 参考訳(メタデータ) (2024-02-02T13:42:50Z) - DevEval: Evaluating Code Generation in Practical Software Projects [52.16841274646796]
我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。
DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。
DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
論文 参考訳(メタデータ) (2024-01-12T06:51:30Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。