論文の概要: WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics
- arxiv url: http://arxiv.org/abs/2603.13391v1
- Date: Wed, 11 Mar 2026 07:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.155102
- Title: WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics
- Title(参考訳): WebVR: ヒューマンアラインなビジュアルルーブリックによるビデオからのWebページレクリエーションのためのマルチモーダルLCMのベンチマーク
- Authors: Yuhong Dai, Yanlin Lai, Mitt Huang, Hangyu Guo, Dingming Li, Hongbo Peng, Haodong Li, Yingxiu Zhao, Haoran Lyu, Zheng Ge, Xiangyu Zhang, Daxin Jiang,
- Abstract要約: MLLMがデモビデオからWebページを忠実に再現できるかどうかを評価するベンチマークであるWebVRを紹介する。
WebVRには、さまざまなカテゴリにまたがる175のWebページが含まれている。
生成したWebページを複数の次元にわたって評価する,きめ細かなヒューマンアラインなビジュアル合成も設計する。
- 参考スコア(独自算出の注目度): 35.85591109135738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing web-generation benchmarks rely on text prompts or static screenshots as input. However, videos naturally convey richer signals such as interaction flow, transition timing, and motion continuity, which are essential for faithful webpage recreation. Despite this potential, video-conditioned webpage generation remains largely unexplored, with no dedicated benchmark for this task. To fill this gap, we introduce WebVR, a benchmark that evaluates whether MLLMs can faithfully recreate webpages from demonstration videos. WebVR contains 175 webpages across diverse categories, all constructed through a controlled synthesis pipeline rather than web crawling, ensuring varied and realistic demonstrations without overlap with existing online pages. We also design a fine-grained, human-aligned visual rubric that evaluates the generated webpages across multiple dimensions. Experiments on 19 models reveal substantial gaps in recreating fine-grained style and motion quality, while the rubric-based automatic evaluation achieves 96% agreement with human preferences. We release the dataset, evaluation toolkit, and baseline results to support future research on video-to-webpage generation.
- Abstract(参考訳): 既存のWeb世代ベンチマークは、入力としてテキストプロンプトや静的スクリーンショットに依存している。
しかし、ビデオは相互作用の流れ、遷移のタイミング、動きの継続といった、忠実なウェブページのレクリエーションに欠かせないリッチなシグナルを自然に伝達する。
この可能性にもかかわらず、ビデオ条件のWebページ生成は未定であり、このタスク専用のベンチマークはない。
このギャップを埋めるために、デモビデオからMLLMがWebページを忠実に再現できるかどうかを評価するベンチマークであるWebVRを紹介する。
WebVRには、さまざまなカテゴリにわたる175のWebページが含まれており、すべて、Webクローリングではなく、制御された合成パイプラインを通じて構築されている。
また,複数の次元にまたがって生成されたWebページを評価できる,きめ細かな人力対応の視覚ルーブリックを設計する。
19種類のモデルに対する実験では、きめ細かなスタイルと動きの質を再現する上で、かなりのギャップが示され、一方、ルーリックに基づく自動評価は、人間の好みと96%の一致を達成している。
今後,ビデオページ生成のためのデータセット,評価ツールキット,ベースライン結果をリリースする。
関連論文リスト
- LiveWeb-IE: A Benchmark For Online Web Information Extraction [48.82654261583883]
Web情報抽出(WIE)は、Webページから自動的にデータを抽出するタスクであり、様々なアプリケーションに高いユーティリティを提供する。
ライブWebサイトに対して,WIEシステムを直接評価するための新しいベンチマークである,データセットを導入する。
また,Webページコンテンツを視覚的に絞り込み,所望の情報を抽出することで,人間の認知過程を模倣する新しい多段階エージェントフレームワークであるVisual Grounding Scraper (VGS)を提案する。
論文 参考訳(メタデータ) (2026-03-14T05:55:11Z) - RIVER: A Real-Time Interaction Benchmark for Video LLMs [14.889554695311057]
Real-tIme Video intERaction Bench (RIVER Bench)は、オンラインビデオ理解を評価するために設計された。
RIVER Bench氏はRetrospective Memory、Live-Perception、Proactive Precipationタスクからなる新しいフレームワークを紹介した。
様々なソースや長さの動画を用いて詳細なアノテーションを行い、リアルタイムのインタラクティブなフォーマットを正確に定義した。
論文 参考訳(メタデータ) (2026-03-04T12:29:34Z) - IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。
IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T12:38:06Z) - WebWalker: Benchmarking LLMs in Web Traversal [64.48425443951749]
WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。
本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-01-13T18:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。