論文の概要: WebGen-V Bench: Structured Representation for Enhancing Visual Design in LLM-based Web Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2510.15306v1
- Date: Fri, 17 Oct 2025 04:37:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.472657
- Title: WebGen-V Bench: Structured Representation for Enhancing Visual Design in LLM-based Web Generation and Evaluation
- Title(参考訳): WebGen-V Bench:LLMベースのWeb生成と評価における視覚設計の強化のための構造化表現
- Authors: Kuang-Da Wang, Zhao Wang, Yotaro Shimose, Wei-Yao Wang, Shingo Takamatsu,
- Abstract要約: WebGen-Vは、データ品質と評価を向上させる命令-HTML生成のための新しいベンチマークとフレームワークである。
WebGen-Vは、(1)現実世界のWebページを継続的に収集する非有界でエージェント的なクローリングフレームワーク、(2)メタデータ、ローカライズされたUIスクリーンショット、およびフォーマットされたテキストと画像アセットを統合する構造化されたセクションワイドなデータ表現、(3)テキスト、レイアウト、ビジュアルを整列したセクションレベルのマルチモーダル評価プロトコルである。
- 参考スコア(独自算出の注目度): 12.981748587257194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Witnessed by the recent advancements on leveraging LLM for coding and multimodal understanding, we present WebGen-V, a new benchmark and framework for instruction-to-HTML generation that enhances both data quality and evaluation granularity. WebGen-V contributes three key innovations: (1) an unbounded and extensible agentic crawling framework that continuously collects real-world webpages and can leveraged to augment existing benchmarks; (2) a structured, section-wise data representation that integrates metadata, localized UI screenshots, and JSON-formatted text and image assets, explicit alignment between content, layout, and visual components for detailed multimodal supervision; and (3) a section-level multimodal evaluation protocol aligning text, layout, and visuals for high-granularity assessment. Experiments with state-of-the-art LLMs and ablation studies validate the effectiveness of our structured data and section-wise evaluation, as well as the contribution of each component. To the best of our knowledge, WebGen-V is the first work to enable high-granularity agentic crawling and evaluation for instruction-to-HTML generation, providing a unified pipeline from real-world data acquisition and webpage generation to structured multimodal assessment.
- Abstract(参考訳): LLMをコーディングとマルチモーダル理解に活用する最近の進歩に気付き、データ品質と評価の粒度を両立させる命令-HTML生成のための新しいベンチマークおよびフレームワークであるWebGen-Vを提案する。
WebGen-Vは、(1)現実世界のWebページを継続的に収集し、既存のベンチマークの強化に活用できる、非バウンドで拡張可能なエージェントクローリングフレームワーク、(2)メタデータ、ローカライズされたUIスクリーンショット、JSON形式のテキストとイメージアセットを統合する構造化された、セクションワイズなデータ表現、2)コンテンツ、レイアウト、ビジュアルコンポーネント間の明示的なアライメント、そして(3)テキスト、レイアウト、ビジュアルアライメントを調整したセクションレベルのマルチモーダルアライメントプロトコルである。
現状のLCMとアブレーションによる実験は、構造化データの有効性とセクションワイド評価、および各コンポーネントの寄与を検証した。
我々の知る限り、WebGen-Vは、実世界のデータ取得とWebページ生成から構造化マルチモーダルアセスメントへの統一パイプラインを提供する、命令-HTML生成のための高粒度エージェントクローリングと評価を可能にする最初の試みである。
関連論文リスト
- WebRenderBench: Enhancing Web Interface Generation through Layout-Style Consistency and Reinforcement Learning [24.178675410636135]
実世界のポータルサイトから収集した45.1kのWebページの大規模なベンチマークを示す。
また、最終レンダリングページからレイアウトとスタイルの整合性を測定する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2025-10-05T08:47:39Z) - UnifiedVisual: A Framework for Constructing Unified Vision-Language Datasets [51.284864284520744]
統合視覚大言語モデル(VLLM)は、最近、マルチモーダル理解と生成の両方において顕著な進歩を遂げている。
本稿では,新しいデータセット構築フレームワークUnifiedVisualを導入し,UnifiedVisual-240Kを提案する。
UnifiedVisual-240Kは、様々な視覚的およびテキスト的入力と出力をシームレスに統合し、包括的なクロスモーダル推論を可能にする。
論文 参考訳(メタデータ) (2025-09-18T08:39:44Z) - A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends [11.428017294202162]
Visually-Rich Document Understanding (VRDU)は、複雑なビジュアル、テキスト、レイアウト情報を含む文書を自動的に処理する必要があるため、重要な分野として登場した。
この調査はMLLMベースのVRDUの最近の進歩をレビューし、3つのコアコンポーネントを強調した。
論文 参考訳(メタデータ) (2025-07-14T02:10:31Z) - CAL-RAG: Retrieval-Augmented Multi-Agent Generation for Content-Aware Layout Design [6.830055289299306]
CAL-RAGは、コンテンツ対応レイアウト生成のための検索拡張エージェントフレームワークである。
我々は、LangGraphを使ってフレームワークを実装し、セマンティック変数に富んだベンチマークで評価する。
その結果,検索強化とエージェント的多段階推論を組み合わせることで,拡張性,解釈性,高忠実度な解が得られることがわかった。
論文 参考訳(メタデータ) (2025-06-27T06:09:56Z) - PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides [51.88536367177796]
そこで本研究では,人案に触発された2段階の編集手法を提案し,プレゼンテーションを自動的に生成する。
PWTAgentはまず参照を分析し、スライドレベルの関数型とコンテンツスキーマを抽出し、選択した参照スライドに基づいて編集アクションを生成する。
PWTAgentは、既存の3次元のプレゼンテーション生成方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-01-07T16:53:01Z) - DOGR: Towards Versatile Visual Document Grounding and Referring [47.66205811791444]
グラウンディングと参照機能は、詳細な理解とフレキシブルなユーザインタラクションを達成するために注目を集めています。
本稿では,2種類の高品質な文書データを生成するDOGR-Engineを提案する。
DOGR-Engineを用いて,3つの文書タイプにまたがる7つのグラウンドと参照タスクをカバーするベンチマークであるDOGR-Benchを構築した。
論文 参考訳(メタデータ) (2024-11-26T05:38:34Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - WebCode2M: A Real-World Dataset for Code Generation from Webpage Designs [49.91550773480978]
本稿では256万のインスタンスからなる新しいデータセットであるWebCode2Mを紹介する。
WebCode2Mの有効性を検証するため,WebCoderという名称のVision Transformer(ViT)に基づくベースラインモデルを導入し,公正比較のためのベンチマークを確立する。
ベンチマークの結果、我々のデータセットは、Webページの設計からコードを生成するMLLMの能力を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-04-09T15:05:48Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。