論文の概要: WebCoderBench: Benchmarking Web Application Generation with Comprehensive and Interpretable Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2601.02430v1
- Date: Mon, 05 Jan 2026 05:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.65931
- Title: WebCoderBench: Benchmarking Web Application Generation with Comprehensive and Interpretable Evaluation Metrics
- Title(参考訳): WebCoderBench: 総合的かつ解釈可能な評価メトリクスによるWebアプリケーション生成のベンチマーク
- Authors: Chenxu Liu, Yingjie Fu, Wei Yang, Ying Zhang, Tao Xie,
- Abstract要約: WebCoderBenchは,Webアプリ生成のための,世界初の実世界のコンパイル,一般化,解釈可能なベンチマークです。
WebCoderBenchは1,572の実際のユーザ要件で構成されており、現実的なユーザの意図を反映したさまざまなモダリティと表現スタイルをカバーしている。
- 参考スコア(独自算出の注目度): 11.401742606022816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web applications (web apps) have become a key arena for large language models (LLMs) to demonstrate their code generation capabilities and commercial potential. However, building a benchmark for LLM-generated web apps remains challenging due to the need for real-world user requirements, generalizable evaluation metrics without relying on ground-truth implementations or test cases, and interpretable evaluation results. To address these challenges, we introduce WebCoderBench, the first real-world-collected, generalizable, and interpretable benchmark for web app generation. WebCoderBench comprises 1,572 real user requirements, covering diverse modalities and expression styles that reflect realistic user intentions. WebCoderBench provides 24 fine-grained evaluation metrics across 9 perspectives, combining rule-based and LLM-as-a-judge paradigm for fully automated, objective, and general evaluation. Moreover, WebCoderBench adopts human-preference-aligned weights over metrics to yield interpretable overall scores. Experiments across 12 representative LLMs and 2 LLM-based agents show that there exists no dominant model across all evaluation metrics, offering an opportunity for LLM developers to optimize their models in a targeted manner for a more powerful version.
- Abstract(参考訳): Webアプリケーション(Webアプリケーション)は、コード生成機能と商業的可能性を示すために、大規模言語モデル(LLM)の重要な領域となっている。
しかし, LLM 生成 Web アプリケーションのベンチマークの構築は, 現実のユーザ要件の必要性, 基礎的な実装やテストケースに頼らずに, 一般化可能な評価指標, 解釈可能な評価結果などの理由から, 依然として困難である。
これらの課題に対処するために、WebCoderBenchを紹介します。
WebCoderBenchは1,572の実際のユーザ要件で構成されており、現実的なユーザの意図を反映したさまざまなモダリティと表現スタイルをカバーしている。
WebCoderBenchは、ルールベースとLLM-as-a-judgeパラダイムを組み合わせて、完全な自動化、客観的、一般的な評価を行う、9つの視点にわたる24のきめ細かい評価指標を提供する。
さらに、WebCoderBenchは、解釈可能な全体的なスコアを得るために、メトリクスよりも人間の参照整合重みを採用する。
12の代表的なLLMと2つのLLMベースのエージェントによる実験では、すべての評価指標に支配的なモデルが存在しないことが示されており、LLM開発者がより強力なバージョンをターゲットとしてモデルを最適化する機会を提供する。
関連論文リスト
- IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。
IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T12:38:06Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - Meeseeks: A Feedback-Driven, Iterative Self-Correction Benchmark evaluating LLMs' Instruction Following Capability [21.96694731466089]
フィードバック機構を組み込んだ完全に自動化された命令追従ベンチマークであるMeeseeksを紹介した。
Meeseeksは、モデル応答における誤ったコンポーネントを特定し、対応するフィードバックを正確に提供することで、モデルを自己補正に向けて反復的に導く。
我々は、マクロレベルとインスタンスレベルの両方から包括的な分析を行い、現在の最先端モデルでよく見られる多くの共通問題を明らかにした。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。