論文の概要: Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety
- arxiv url: http://arxiv.org/abs/2509.21782v1
- Date: Fri, 26 Sep 2025 02:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.130359
- Title: Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety
- Title(参考訳): MLLMベースのWeb理解のベンチマーク:推論、ロバスト性、安全性
- Authors: Junliang Liu, Jingyu Xiao, Wenxin Tang, Wenxuan Wang, Zhixian Wang, Minrui Zhang, Shuanghe Yu,
- Abstract要約: マルチモーダルな大規模言語モデル(MLLM)は、複雑なWeb関連アプリケーションを構築するためのAIコラボレータとしてますます位置づけられている。
我々は、WebRSSBenchと呼ばれる総合的なWeb理解ベンチマークを導入し、8つのタスクでReasoning, Robustness, Safetyを共同で評価する。
このベンチマークは729のウェブサイトから構築され、3799の質問応答ペアが含まれており、ページ構造、テキスト、ウィジェット、安全クリティカルな相互作用に関する多段階の推論を探索している。
- 参考スコア(独自算出の注目度): 9.588706798051955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) are increasingly positioned as AI collaborators for building complex web-related applications like GUI agents and front-end code generation. However, existing benchmarks largely emphasize visual perception or UI code generation, showing insufficient evaluation on the reasoning, robustness and safety capability required for end-to-end web applications. To bridge the gap, we introduce a comprehensive web understanding benchmark, named WebRSSBench, that jointly evaluates Reasoning, Robustness, and Safety across eight tasks, such as position relationship reasoning, color robustness, and safety critical detection, etc. The benchmark is constructed from 729 websites and contains 3799 question answer pairs that probe multi-step inference over page structure, text, widgets, and safety-critical interactions. To ensure reliable measurement, we adopt standardized prompts, deterministic evaluation scripts, and multi-stage quality control combining automatic checks with targeted human verification. We evaluate 12 MLLMs on WebRSSBench. The results reveal significant gaps, models still struggle with compositional and cross-element reasoning over realistic layouts, show limited robustness when facing perturbations in user interfaces and content such as layout rearrangements or visual style shifts, and are rather conservative in recognizing and avoiding safety critical or irreversible actions. Our code is available at https://github.com/jinliang-byte/webssrbench.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は、GUIエージェントやフロントエンドコード生成のような複雑なWeb関連アプリケーションを構築するためのAIコラボレータとしてますます位置づけられている。
しかし、既存のベンチマークは視覚的認識やUIコード生成に重点を置いており、エンドツーエンドのWebアプリケーションに必要な推論、堅牢性、安全性について十分な評価がなされていない。
このギャップを埋めるために、私たちはWebRSSBenchというWeb理解ベンチマークを導入しました。これは、位置関係推論、色堅牢性、安全性クリティカル検出などの8つのタスクで共用して、推論、ロバストネス、安全を評価します。
このベンチマークは729のウェブサイトから構築され、3799の質問応答ペアが含まれており、ページ構造、テキスト、ウィジェット、安全クリティカルな相互作用に対して多段階の推論を探索している。
信頼性測定の信頼性を確保するため,自動チェックと人体検証を併用した,標準化されたプロンプト,決定論的評価スクリプト,多段階品質制御を採用した。
WebRSSBench上で12個のMLLMを評価した。
その結果、モデルが現実的なレイアウトよりも構成的およびクロス要素的推論に苦慮していること、ユーザインターフェースやレイアウトの再配置や視覚的なスタイルシフトといったコンテンツに直面する際の頑丈さが制限されていること、安全性が重要あるいは不可逆な行動を認識して回避する上で保守的であること、といった大きなギャップが明らかになった。
私たちのコードはhttps://github.com/jinliang-byte/webssrbench.comで利用可能です。
関連論文リスト
- REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - Towards Trustworthy GUI Agents: A Survey [64.6445117343499]
本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。
敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。
GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
論文 参考訳(メタデータ) (2025-03-30T13:26:00Z) - EXPLICATE: Enhancing Phishing Detection through Explainable AI and LLM-Powered Interpretability [44.2907457629342]
EXPLICATEは、三成分アーキテクチャによるフィッシング検出を強化するフレームワークである。
既存のディープラーニング技術と同等ですが、説明性が向上しています。
自動AIとフィッシング検出システムにおけるユーザ信頼の重大な隔たりに対処する。
論文 参考訳(メタデータ) (2025-03-22T23:37:35Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。
Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。
benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2024-04-09T02:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。