論文の概要: WebVoyager: Building an End-to-End Web Agent with Large Multimodal
Models
- arxiv url: http://arxiv.org/abs/2401.13919v3
- Date: Thu, 29 Feb 2024 12:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 17:51:02.463558
- Title: WebVoyager: Building an End-to-End Web Agent with Large Multimodal
Models
- Title(参考訳): WebVoyager: 大規模マルチモーダルモデルによるエンドツーエンドWebエージェントの構築
- Authors: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming
Zhang, Zhenzhong Lan, Dong Yu
- Abstract要約: 既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
- 参考スコア(独自算出の注目度): 67.9935966375389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language models (LLMs) has led to a new era
marked by the development of autonomous applications in real-world scenarios,
which drives innovation in creating advanced web agents. Existing web agents
typically only handle one input modality and are evaluated only in simplified
web simulators or static web snapshots, greatly limiting their applicability in
real-world scenarios. To bridge this gap, we introduce WebVoyager, an
innovative Large Multimodal Model (LMM) powered web agent that can complete
user instructions end-to-end by interacting with real-world websites. Moreover,
we establish a new benchmark by compiling real-world tasks from 15 popular
websites and introduce an automatic evaluation protocol leveraging multimodal
understanding abilities of GPT-4V to evaluate open-ended web agents. We show
that WebVoyager achieves a 59.1% task success rate on our benchmark,
significantly surpassing the performance of both GPT-4 (All Tools) and the
WebVoyager (text-only) setups, underscoring the exceptional capability of
WebVoyager. The proposed automatic evaluation metric achieves 85.3% agreement
with human judgment, indicating its effectiveness in providing reliable and
accurate assessments of web agents.
- Abstract(参考訳): 大規模言語モデル(llm)の急速な進歩は、現実世界のシナリオにおける自律的アプリケーションの開発によって特徴づけられる新しい時代へと導かれ、先進的なwebエージェントの作成におけるイノベーションを駆動している。
既存のWebエージェントは通常、1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
このギャップを埋めるために、WebVoyagerを紹介します。これは、LMM(Large Multimodal Model)を利用したWebエージェントで、現実世界のWebサイトと対話することで、エンド・ツー・エンドの指示を完了します。
さらに,15のWebサイトから実世界のタスクをコンパイルし,GPT-4Vのマルチモーダル理解機能を活用した自動評価プロトコルを導入し,オープンエンドWebエージェントの評価を行う。
webvoyagerは、ベンチマークで59.1%のタスク成功率を達成し、gpt-4(すべてのツール)とwebvoyager(テキストのみ)の2つの設定のパフォーマンスを大幅に上回り、webvoyagerの例外的な能力を強調しています。
提案した自動評価基準は,人的判断と85.3%の一致を達成し,Webエージェントの信頼性と正確性を示す。
関連論文リスト
- WIPI: A New Web Threat for LLM-Driven Web Agents [28.651763099760664]
我々は、Web Agentを間接的に制御し、公開されているWebページに埋め込まれた悪意ある命令を実行する、新しい脅威WIPIを導入する。
WIPIを成功させるためには、ブラックボックス環境で動作させる。
提案手法は,純ブラックボックスシナリオにおいても平均攻撃成功率(ASR)が90%を超えることを達成している。
論文 参考訳(メタデータ) (2024-02-26T19:01:54Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web
Tasks [96.9727427788202]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - GPT-4V(ision) is a Generalist Web Agent, if Grounded [20.940613419944015]
GPT-4Vは、手動でウェブサイト上のアクションに計画を立てれば、ライブWebサイト上で51.1タスクを完了できることを示す。
本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用するWebエージェントであるSEEACTを提案する。
論文 参考訳(メタデータ) (2024-01-03T08:33:09Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [94.80987984486356]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - Mind2Web: Towards a Generalist Agent for the Web [25.363429937913065]
Mind2Webは、Webのためのジェネラリストエージェントの開発と評価のための最初のデータセットである。
31のドメインにまたがる137のWebサイトから2,000以上のオープンエンドタスクが収集され、Mind2WebはジェネラリストWebエージェントを構築するために必要な3つの材料を提供する。
Mind2Webをベースとして,汎用的なWebエージェントを構築するために,大規模言語モデル(LLM)を最初に検討する。
論文 参考訳(メタデータ) (2023-06-09T17:44:31Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。