論文の概要: IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?
- arxiv url: http://arxiv.org/abs/2509.24709v1
- Date: Mon, 29 Sep 2025 12:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.97962
- Title: IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?
- Title(参考訳): IWR-Bench: LVLMはユーザインタラクションビデオからインタラクティブなWebページを再構築できますか?
- Authors: Yang Chen, Minghao Liu, Yufan Shen, Yunwen Li, Tianyuan Huang, Xinyu Fang, Tianyu Zheng, Wenxuan Huang, Cheng Yang, Daocheng Fu, Jianbiao Mei, Rong Wu, Licheng Wen, Xuemeng Yang, Song Mao, Qunshu Lin, Zhi Yu, Yongliang Shen, Yu Qiao, Botian Shi,
- Abstract要約: 本稿では,ビデオからのインタラクティブWebページ再構築におけるLVLM(Large Vision-Language Models)の能力を評価するための新しいベンチマークであるIWR-Benchを紹介する。
IWR-Benchは100の現実世界のウェブサイトから、1,001のアクションを持ち、多様な相互作用の複雑さを特徴とする1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
- 参考スコア(独自算出の注目度): 55.97689257382499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The webpage-to-code task requires models to understand visual representations of webpages and generate corresponding code. However, existing benchmarks primarily focus on static screenshot-to-code tasks, thereby overlooking the dynamic interactions fundamental to real-world web applications. To address this limitation, this paper introduces IWR-Bench, a novel benchmark for evaluating the capabilities of Large Vision-Language Models (LVLMs) in interactive webpage reconstruction from video. IWR-Bench comprises 113 meticulously curated tasks from 100 real-world websites, with 1,001 actions and featuring diverse interaction complexities (e.g., web games), visual styles, and domains. Aligning with standard web development practices, each task includes not only user interaction videos but also all crawled static assets (e.g., images, videos). This benchmark evaluates models on two fundamental challenges: comprehensive multi-modal reasoning to infer interaction logic from video and assets, and advanced code generation to translate this logic into functional code. An agent-as-a-judge framework with a comprehensive metric system automatically assesses the functional correctness and visual fidelity of generated webpages. Extensive experiments on 28 LVLMs reveal a significant challenge: the best model achieves an overall score of only 36.35%, as functional correctness (24.39% IFS) lags significantly behind visual fidelity (64.25% VFS). These results highlight critical limitations in current models' ability to reason about temporal dynamics and synthesize event-driven logic, establishing IWR-Bench as a challenging frontier for vision-language research. The benchmark and evaluation code will be made publicly available. Code is available at https://github.com/L-O-I/IWR-Bench.
- Abstract(参考訳): Webページからコードへのタスクは、Webページの視覚的表現を理解し、対応するコードを生成するモデルを必要とする。
しかし、既存のベンチマークは主に静的スクリーンショットからコードへのタスクに焦点を当てており、現実世界のWebアプリケーションの基本となる動的な相互作用を見落としている。
この制限に対処するために、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークであるIWR-Benchを紹介する。
IWR-Benchは100の現実世界のWebサイトから、1,001のアクションを持ち、さまざまなインタラクションの複雑さ(Webゲーム、ビジュアルスタイル、ドメインなど)を特徴とする、1,3の精巧にキュレートされたタスクで構成されている。
標準的なWeb開発プラクティスに従って、各タスクはユーザーインタラクションビデオだけでなく、すべてのクロールされた静的アセット(画像、ビデオなど)を含んでいる。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
総合的な計量システムを備えたエージェント・アズ・ア・ジャッジ・フレームワークは、生成されたWebページの機能的正しさと視覚的忠実度を自動的に評価する。
最高のモデルでは、機能的正しさ(24.39% IFS)が視覚的忠実さ(64.25% VFS)よりもかなり遅れているため、全体のスコアは36.35%である。
これらの結果は、現在のモデルが時間力学を推論し、イベント駆動論理を合成する能力において、重要な限界を浮き彫りにして、IWR-Benchを視覚言語研究の挑戦的フロンティアとして確立した。
ベンチマークと評価コードは一般公開される予定だ。
コードはhttps://github.com/L-O-I/IWR-Benchで入手できる。
関連論文リスト
- CVBench: Evaluating Cross-Video Synergies for Complex Multimodal Understanding and Reasoning [11.478276629279526]
CVBenchは,ビデオ間のリレーショナル推論を厳格に評価するために設計された,最初の総合的なベンチマークである。
CVBenchは、クロスビデオオブジェクトアソシエーション、クロスビデオイベントアソシエーション、クロスビデオ複合推論の3層にまたがる1000の質問応答ペアで構成されている。
5つのドメインの異なるビデオクラスタから構築されたこのベンチマークは、ダイナミックな視覚的コンテキストにまたがる情報を合成するモデルに挑戦する。
論文 参考訳(メタデータ) (2025-08-27T03:29:35Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [48.24550684610705]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。