論文の概要: Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks
- arxiv url: http://arxiv.org/abs/2505.07473v1
- Date: Mon, 12 May 2025 12:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.365123
- Title: Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks
- Title(参考訳): Web-Bench: Web標準とフレームワークに基づいたLLMコードベンチマーク
- Authors: Kai Xu, YiWei Mao, XinYi Guan, ZiLong Feng,
- Abstract要約: 我々は、50のプロジェクトを含む新しいベンチマークであるWeb-Benchを提案し、それぞれが連続的な依存関係を持つ20のタスクで構成されている。
Web 開発の基本要素である Web 標準と Web フレームワークをカバーすることを目指しています。
ベンチマークエージェント(Web-Agent)では、SOTA(Claude 3.7 Sonnet)が25.1%のPass@1しか達成せず、SWE-Benchの検証(65.4%)とFull(33.8%)のスコアよりも大幅に低い(ベター)。
- 参考スコア(独自算出の注目度): 6.303398878886812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of large language models (LLMs) in the field of coding is evolving rapidly: from code assistants, to autonomous coding agents, and then to generating complete projects through natural language. Early LLM code benchmarks primarily focused on code generation accuracy, but these benchmarks have gradually become saturated. Benchmark saturation weakens their guiding role for LLMs. For example, HumanEval Pass@1 has reached 99.4% and MBPP 94.2%. Among various attempts to address benchmark saturation, approaches based on software engineering have stood out, but the saturation of existing software engineering benchmarks is rapidly increasing. To address this, we propose a new benchmark, Web-Bench, which contains 50 projects, each consisting of 20 tasks with sequential dependencies. The tasks implement project features in sequence, simulating real-world human development workflows. When designing Web-Bench, we aim to cover the foundational elements of Web development: Web Standards and Web Frameworks. Given the scale and complexity of these projects, which were designed by engineers with 5 to 10 years of experience, each presents a significant challenge. On average, a single project takes 4 to 8 hours for a senior engineer to complete. On our given benchmark agent (Web-Agent), SOTA (Claude 3.7 Sonnet) achieves only 25.1% Pass@1, significantly lower (better) than SWE-Bench's Verified (65.4%) and Full (33.8%) scores. Finally, we discuss that in any development field, Standards and Frameworks represent foundational knowledge and efficiency tools, respectively, and LLMs require optimization tailored to them.
- Abstract(参考訳): コーディング分野における大規模言語モデル(LLM)の適用は、コードアシスタントから自律的なコーディングエージェント、そして自然言語による完全なプロジェクト生成に至るまで、急速に進化している。
初期のLCMのコードベンチマークは主にコード生成の精度に重点を置いていたが、これらのベンチマークは徐々に飽和している。
ベンチマーク飽和はLLMのガイドの役割を弱める。
例えば、HumanEval Pass@1は99.4%、MBPP 94.2%に達した。
ベンチマーク飽和に対処する試みとしては,ソフトウェア工学に基づくアプローチが目立ったが,既存のソフトウェア工学ベンチマークの飽和は急速に増加している。
これを解決するために、50のプロジェクトを含む新しいベンチマークであるWeb-Benchを提案し、それぞれがシーケンシャルな依存関係を持つ20のタスクで構成されている。
タスクは、実際のヒューマン開発ワークフローをシミュレートして、プロジェクト機能を順次実装する。
Web-Benchを設計する際には、Web開発の基礎となる要素であるWeb StandardsとWeb Frameworksをカバーすることを目指しています。
5年から10年の経験を持つエンジニアが設計したこれらのプロジェクトの規模と複雑さを考えると、それぞれが大きな課題を示します。
平均して、1つのプロジェクトは、シニアエンジニアが完了するのに4~8時間かかります。
ベンチマークエージェント(Web-Agent)では、SOTA(Claude 3.7 Sonnet)が25.1%のPass@1しか達成せず、SWE-Benchの検証(65.4%)とFull(33.8%)のスコアよりも大幅に低い(ベター)。
最後に、どの開発分野においても、標準とフレームワークはそれぞれ基礎知識と効率のツールを表現し、LLMはそれらに合わせて最適化を必要とすることを議論する。
関連論文リスト
- Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - CodePori: Large-Scale System for Autonomous Software Development Using Multi-Agent Technology [4.2990995991059275]
大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformer)は、ソフトウェア工学の分野を変えました。
我々は,大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化するように設計された,新しいシステムであるCodePoriを紹介する。
結果: CodePoriは、典型的なソフトウェア開発プロセスに合わせて、大規模プロジェクトの実行コードを生成することができる。
論文 参考訳(メタデータ) (2024-02-02T13:42:50Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。