論文の概要: WebRISE: Requirement-Induced State Evaluation for MLLM-Generated Web Artifacts
- arxiv url: http://arxiv.org/abs/2606.03220v1
- Date: Tue, 02 Jun 2026 06:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.807871
- Title: WebRISE: Requirement-Induced State Evaluation for MLLM-Generated Web Artifacts
- Title(参考訳): WebRISE: MLLM生成 Web アーチファクトに必要な状態評価
- Authors: Yuxin Meng, Yuhan Suo, Junjie Wang, Yuhan Sun, Yiyao Yu, Ruixu Zhang, Ruining Hu, Yubin Wang, Shouwei Ruan, Bin Wang, Yuxiang Zhang, Yujiu Yang,
- Abstract要約: MLLM生成Webアーティファクトの既存のベンチマークは、局所的な証拠を通じて相互作用を評価する。
タスク要求をインタラクションコントラクトグラフにコンパイルするWebRISEを紹介します。
- 参考スコア(独自算出の注目度): 46.85286238215375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing benchmarks for MLLM-generated web artifacts assess interaction through local evidence and miss the requirement-induced states and transitions that determine whether a page works. We introduce WebRISE, which compiles task requirements into Interaction Contract Graphs (ICGs) of observable states, user-intent transitions, and DOM/visual assertions for implementation-agnostic browser execution. WebRISE spans 442 tasks across five input modalities (Text, Markdown, Sketch, Image, Video), with 5,495 transitions and 5,271 requirement checks that separate user-stated functions from implicit product-level constraints. Across 14 MLLMs, even the strongest model reaches only 65.6% transition validity and 66.3% requirement coverage, and visual quality is no proxy for behavior (Qwen3.6-35B-A3B on Markdown: V=80.8 yet T=15.5). Video gives the strongest interaction signal (+10.6 pp implicit coverage over Text), while implicit constraints persist; defect injection shows ICG-based scoring detects state errors at 2-16x the rate of checkpoint-style evaluation.
- Abstract(参考訳): MLLMが生成するWebアーティファクトの既存のベンチマークは、ローカルエビデンスを通じてインタラクションを評価し、ページが機能するかどうかを決定する要件によって引き起こされる状態と遷移を見逃す。
実装に依存しないブラウザ実行のための、観測可能な状態、ユーザインテリジェンス、DOM/視覚的アサーションのインタラクションコントラクトグラフ(ICG)にタスク要求をコンパイルするWebRISEを紹介する。
WebRISEは5つの入力モダリティ(テキスト、Markdown、Sketch、画像、ビデオ)で442のタスクにまたがる。
14個のMLLMにおいて、最強モデルでさえ65.6%の遷移妥当性と66.3%の要求カバレッジに到達し、視覚的品質は行動のプロキシではない(Qwen3.6-35B-A3B on Markdown: V=80.8 yet T=15.5)。
ビデオは最強の相互作用信号(+10.6 pp テキスト上の暗黙のカバレッジ)を与えるが、暗黙の制約は持続する。
関連論文リスト
- PInVerify: An Offline Embodied Benchmark for Active Instance Verification [8.403971471573607]
エージェントは対象物へのナビゲートに強い進歩を遂げているが、目標付近に到達しても、エージェントが正しいインスタンスを見つけたことを保証していない。
このギャップを、エージェントが候補オブジェクトの周囲の視点を積極的に選択し、それがきめ細かい自然言語記述と一致するかどうかを判断するタスクであるActive Instance Verification (AIV)で解決する。
我々は、AIVのオフライン実施ベンチマークであるPInVerifyを紹介した。18のオブジェクトカテゴリにわたる3000の評価エピソードは、マルチビューキャプチャとして配信される。
論文 参考訳(メタデータ) (2026-05-28T22:42:38Z) - ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents [59.626170560327274]
textbfClawForgeは、ステートコンフリクト下で実行可能なコマンドラインカテゴリのためのジェネレータベースのベンチマークフレームワークである。
私たちはこのフレームワークをClawForge-Bench(17のシナリオ、6の能力カテゴリ)としてインスタンス化します。
論文 参考訳(メタデータ) (2026-05-13T21:34:08Z) - DiagnosticIQ: A Benchmark for LLM-Based Industrial Maintenance Action Recommendation from Symbolic Rules [4.124344125532972]
複雑な工業資産の監視は、センサーの条件に基づいて引き起こされるエンジニアによる象徴的な規則に依存している。
ルールをメンテナンスステップに変換するには、長年の実践を通じて得られた資産固有の知識が必要です。
このルール・ツー・アクション・ステップの意思決定支援としてLLMが有効か検討し,6,690名の専門家による複数選択質問をベンチマークした。
論文 参考訳(メタデータ) (2026-05-09T02:17:39Z) - ARIAL: An Agentic Framework for Document VQA with Precise Answer Localization [1.580774794371876]
本稿では,高精度な回答抽出と信頼性のある空間的接地を実現するために,専門的なツールを編成するフレームワークであるARIALを提案する。
テキスト精度 (ANLS) と空間精度 (空間精度) を用いて, ARIAL を 4 つのベンチマーク (DocVQA, FUNSD, CORD, SROIE) で評価した。
我々の研究は、特殊ツールのエージェント的オーケストレーションが、パフォーマンスと解釈可能性を同時に改善できることを示す。
論文 参考訳(メタデータ) (2025-11-22T21:09:28Z) - IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。
IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T12:38:06Z) - Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety [9.588706798051955]
マルチモーダルな大規模言語モデル(MLLM)は、複雑なWeb関連アプリケーションを構築するためのAIコラボレータとしてますます位置づけられている。
我々は、WebRSSBenchと呼ばれる総合的なWeb理解ベンチマークを導入し、8つのタスクでReasoning, Robustness, Safetyを共同で評価する。
このベンチマークは729のウェブサイトから構築され、3799の質問応答ペアが含まれており、ページ構造、テキスト、ウィジェット、安全クリティカルな相互作用に関する多段階の推論を探索している。
論文 参考訳(メタデータ) (2025-09-26T02:38:14Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。