論文の概要: WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models
- arxiv url: http://arxiv.org/abs/2604.18224v1
- Date: Mon, 20 Apr 2026 13:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.885563
- Title: WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models
- Title(参考訳): WebCompass: コード言語モデルのマルチモーダルWebコーディング評価を目指す
- Authors: Xinping Lei, Xinyu Che, Junqi Xiong, Chenchen Zhang, Yukai Huang, Chenyu Zhou, Haoyang Huang, Minghao Liu, Letian Zhu, Hongyi Ye, Jinhua Hao, Ken Deng, Zizheng Zhan, Han Li, Dailin Li, Yifan Yao, Ming Sun, Zhaoxiang Zhang, Jiaheng Liu,
- Abstract要約: 我々はWebエンジニアリング能力のライフサイクルを統一的に評価するマルチモーダル・ベンチマークであるWebを紹介した。
Webは3つの入力モード(テキスト、画像)と3つのタスクタイプ(生成、編集、修復)にまたがる
評価のために,チェックリストに誘導されたLDM-as-a-Judgeプロトコルを採用し,実際のブラウザで自動生成されたWebサイトを生成するための新しいエージェント-as-a-Judgeパラダイムを提案する。
- 参考スコア(独自算出の注目度): 40.87133775066985
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models are rapidly evolving into interactive coding agents capable of end-to-end web coding, yet existing benchmarks evaluate only narrow slices of this capability, typically text-conditioned generation with static-correctness metrics, leaving visual fidelity, interaction quality, and codebase-level reasoning largely unmeasured. We introduce WebCompass, a multimodal benchmark that provides unified lifecycle evaluation of web engineering capability. Recognizing that real-world web coding is an iterative cycle of generation, editing, and repair, WebCompass spans three input modalities (text, image, video) and three task types (generation, editing, repair), yielding seven task categories that mirror professional workflows. Through a multi-stage, human-in-the-loop pipeline, we curate instances covering 15 generation domains, 16 editing operation types, and 11 repair defect types, each annotated at Easy/Medium/Hard levels. For evaluation, we adopt a checklist-guided LLM-as-a-Judge protocol for editing and repair, and propose a novel Agent-as-a-Judge paradigm for generation that autonomously executes generated websites in a real browser, explores interactive behaviors via the Model Context Protocol (MCP), and iteratively synthesizes targeted test cases, closely approximating human acceptance testing. We evaluate representative closed-source and open-source models and observe that: (1) closed-source models remain substantially stronger and more balanced; (2) editing and repair exhibit distinct difficulty profiles, with repair preserving interactivity better but remaining execution-challenging; (3) aesthetics is the most persistent bottleneck, especially for open-source models; and (4) framework choice materially affects outcomes, with Vue consistently challenging while React and Vanilla/HTML perform more strongly depending on task type.
- Abstract(参考訳): 大規模言語モデルは、エンド・ツー・エンドのWebコーディングが可能なインタラクティブなコーディングエージェントへと急速に進化しているが、既存のベンチマークでは、通常、静的な正確性メトリクスを備えたテキストコンディショニング生成と、視覚的忠実さ、インタラクション品質、コードベースレベルの推論など、この機能の狭いスライスしか評価されていない。
本稿では,Webエンジニアリング機能の統合ライフサイクル評価を提供するマルチモーダルベンチマークであるWebCompassを紹介する。
WebCompassは3つの入力モダリティ(テキスト、画像、ビデオ)と3つのタスクタイプ(生成、編集、修復)にまたがって、プロのワークフローを反映する7つのタスクカテゴリを生成する。
多段階のヒューマン・イン・ザ・ループパイプラインを通じて、15の世代ドメイン、16の編集操作タイプ、11の修復欠陥タイプをカバーするインスタンスをキュレートし、それぞれがEasy/Medium/Hardレベルに注釈付けされている。
評価のために、チェックリストに誘導されたLCM-as-a-Judgeプロトコルを編集・修復するために採用し、実際のブラウザで生成されたWebサイトを自律的に実行し、モデルコンテキストプロトコル(MCP)を介してインタラクティブな振る舞いを探索し、ターゲットとするテストケースを反復的に合成し、人間の受け入れテストの密接な近似を行う新しいエージェント・アズ・ア・Judgeパラダイムを提案する。
我々は,(1)クローズドソースモデルとオープンソースモデルの代表的モデルの評価を行い,(1)クローズドソースモデルはかなり強固でバランスの取れたままであり,(2) 編集と修復は,対話性の向上を保ったままの修復が困難であること,(3) 美学は特にオープンソースモデルにおいて最も永続的なボトルネックであること,(4) フレームワークの選択が結果に重大な影響を与えること,(4) Vue は一貫して困難であり,React と Vanilla/HTML はタスクタイプに依存している。
関連論文リスト
- FronTalk: Benchmarking Front-End Development as Conversational Code Generation with Multi-Modal Feedback [92.67587639164908]
マルチモーダルフィードバックを備えたフロントエンドコード生成のベンチマークであるFronTalkを紹介する。
我々は、フロントエンド開発タスクに集中し、100のマルチターン対話のコレクションであるFronTalkをキュレートする。
20モデルの評価は、文献で体系的に調査されていない2つの重要な課題を明らかにしている。
論文 参考訳(メタデータ) (2025-12-05T23:28:09Z) - Evaluating Software Process Models for Multi-Agent Class-Level Code Generation [5.545076518491288]
大規模言語モデル(LLM)は、ソフトウェア開発の自動化にますます使われています。
本研究では,クラスレベルのコード生成のためのプロセス構造とロール形状のマルチエージェント特殊化について検討する。
論文 参考訳(メタデータ) (2025-11-12T22:53:12Z) - Benchmarking Correctness and Security in Multi-Turn Code Generation [41.75392001830794]
MTSecは,マルチターン符号化シナリオにおける正当性とセキュリティを評価する最初のベンチマークである。
MT-Secでは32のオープンソースモデルとクローズドソースモデルと3つのエージェントスキャフォールディングを評価した。
エージェント生成スキャフォールディングは単一ターンコード生成性能を高めるが,マルチターン評価にはあまり有効ではないことがわかった。
論文 参考訳(メタデータ) (2025-10-13T01:20:46Z) - WebRenderBench: Enhancing Web Interface Generation through Layout-Style Consistency and Reinforcement Learning [24.178675410636135]
実世界のポータルサイトから収集した45.1kのWebページの大規模なベンチマークを示す。
また、最終レンダリングページからレイアウトとスタイルの整合性を測定する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2025-10-05T08:47:39Z) - IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。
IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T12:38:06Z) - Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations [70.94563079082751]
電子商取引は、複雑なマルチターンユーザーインタラクションを管理する上で、伝統的な製品検索システムの限界を明らかにしている。
本稿では,対話型マルチモーダル製品検索にテスト時間スケーリングを導入する新しいフレームワークを提案する。
提案手法は生成型レトリバー上に構築され,さらに検索精度の向上と,対話を通してユーザ意図の進化と結果の整合性を向上するテストタイムリグレード機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-25T15:38:56Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。