論文の概要: VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?
- arxiv url: http://arxiv.org/abs/2404.05955v1
- Date: Tue, 9 Apr 2024 02:29:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 16:18:17.323252
- Title: VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?
- Title(参考訳): VisualWebBench: Webページ理解とグラウンド化において,マルチモーダル LLM はどこまで進化したか?
- Authors: Junpeng Liu, Yifan Song, Bill Yuchen Lin, Wai Lam, Graham Neubig, Yuanzhi Li, Xiang Yue,
- Abstract要約: MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。
Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。
benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
- 参考スコア(独自算出の注目度): 115.60866817774641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language models (MLLMs) have shown promise in web-related tasks, but evaluating their performance in the web domain remains a challenge due to the lack of comprehensive benchmarks. Existing benchmarks are either designed for general multimodal tasks, failing to capture the unique characteristics of web pages, or focus on end-to-end web agent tasks, unable to measure fine-grained abilities such as OCR, understanding, and grounding. In this paper, we introduce \bench{}, a multimodal benchmark designed to assess the capabilities of MLLMs across a variety of web tasks. \bench{} consists of seven tasks, and comprises 1.5K human-curated instances from 139 real websites, covering 87 sub-domains. We evaluate 14 open-source MLLMs, Gemini Pro, Claude-3 series, and GPT-4V(ision) on \bench{}, revealing significant challenges and performance gaps. Further analysis highlights the limitations of current MLLMs, including inadequate grounding in text-rich environments and subpar performance with low-resolution image inputs. We believe \bench{} will serve as a valuable resource for the research community and contribute to the creation of more powerful and versatile MLLMs for web-related applications.
- Abstract(参考訳): MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であるが、包括的なベンチマークが欠如しているため、Webドメインにおけるパフォーマンス評価は依然として課題である。
既存のベンチマークは、一般的なマルチモーダルなタスクのために設計されており、Webページのユニークな特徴を捉えていないか、あるいはエンドツーエンドのWebエージェントタスクに注力している。
本稿では,様々な Web タスクにおける MLLM の機能を評価するためのマルチモーダルベンチマークである \bench{} を紹介する。
\bench{}は7つのタスクで構成され、139の実際のWebサイトから1.5Kのヒューマンキュレーションされたインスタンスで構成され、87のサブドメインをカバーする。
オープンソースMLLM14, Gemini Pro, Claude-3 シリーズおよび GPT-4V(ision) を \bench{} 上で評価し,重要な課題と性能ギャップを明らかにした。
さらに分析では、テキストリッチ環境における不適切なグラウンド化や、低解像度の画像入力によるサブパー性能など、現在のMLLMの限界を強調している。
Bench{}は研究コミュニティにとって貴重なリソースであり、Web関連アプリケーションのためのより強力で汎用的なMLLMの作成に貢献すると思います。
関連論文リスト
- On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web
Tasks [96.9727427788202]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - GPT-4V(ision) is a Generalist Web Agent, if Grounded [20.940613419944015]
GPT-4Vは、手動でウェブサイト上のアクションに計画を立てれば、ライブWebサイト上で51.1タスクを完了できることを示す。
本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用するWebエージェントであるSEEACTを提案する。
論文 参考訳(メタデータ) (2024-01-03T08:33:09Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - HeaP: Hierarchical Policies for Web Actions using LLMs [5.921187184647219]
大規模言語モデル(LLM)は、少数かつゼロショット設定でタスクに続く命令を実行する際、顕著な機能を示した。
我々は、LLMを活用してWebタスクをサブタスクの集合に分解し、各タスクを低レベルのクローズドループポリシーで解決する。
LLM(HeaP)を用いたWebアクションのための階層型ポリシー(Hierarchical Policies for Web Actions)を提案する。
論文 参考訳(メタデータ) (2023-10-05T17:40:09Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。